K8s 与云原生故障排查 · 系列目录
叙事框架:容器排障的独特之处在于可见性缺失 总计 78 篇,已发布 0 篇,78 篇待完善
一、Pod / 工作负载类
- ⏳ Pod 频繁重启:OOM 还是 Liveness 探针配置问题?
- ⏳ Pod 一直 Pending:从资源不足到 PVC 挂载层层排查
- ⏳ Pod 启动慢——Init Container / 镜像拉取策略优化
- ⏳ Pod 状态 CrashLoopBackOff:日志拿不到怎么办?
- ⏳ Pod 调度不均衡——nodeAffinity/podAntiAffinity 配置错误
- ⏳ DaemonSet 更新策略导致节点逐个宕机
- ⏳ Job/CronJob 未按预期执行——时区/并发策略/backoff 排查
- ⏳ HPA 扩缩容不灵敏——metrics 采集延迟和目标指标设错
- ⏳ VPA 推荐资源与实际情况偏差过大
- ⏳ PodDisruptionBudget 设太严导致节点维护无法腾空
二、网络类
- ⏳ K8s Service 访问不通:从 iptables 到 IPVS 逐层排查
- ⏳ K8s Ingress 配置错误导致外部无法访问服务
- ⏳ 跨 Namespace 服务调用:DNS 解析 + 网络策略双重排查
- ⏳ K8s 网络策略 NetworkPolicy 规则太严导致服务间通信失败
- ⏳ NodePort 端口冲突排查
- ⏳ Pod 内无法访问集群外网络——NAT/CNI 配置问题
- ⏳ Service Mesh(Istio)sidecar 注入后应用启动变慢
- ⏳ Istio 路由规则配置错误导致流量走向异常
- ⏳ K8s Gateway API 配置与 Ingress 兼容性排查
- ⏳ 集群 DNS 超时/抖动——CoreDNS 自动扩缩容配置不当
- ⏳ 节点级网络带宽限制——TC/CNI 流量整形问题
- ⏳ Cilium/eBPF CNI 模式下的网络排障特有工具链
- ⏳ 双栈(IPv4/IPv6)网络配置下的服务连通性问题
三、存储类
- ⏳ PersistentVolume 无法删除——资源回收状态排查
- ⏳ PV 挂载失败——存储插件/NFS/SAS 协议问题
- ⏳ StatefulSet 有状态服务 Pod 启动顺序导致的故障
- ⏳ 容器存储空间不足——emptyDir 和 hostPath 使用误区
- ⏳ CSI 驱动异常导致 PV 创建卡住
- ⏳ 动态存储类 StorageClass 参数配置错误
- ⏳ 本地 PV(local volume)节点亲和性导致 Pod 调度失败
- ⏳ 卷快照/克隆功能使用中的兼容性问题
四、集群 / 节点类
- ⏳ K8s 节点 NotReady 排查实录
- ⏳ kubelet 证书过期导致节点无法注册
- ⏳ etcd 性能瓶颈导致集群不稳定
- ⏳ 控制面组件(kube-apiserver/scheduler/controller-manager)异常排查
- ⏳ 集群 DNS(CoreDNS)解析失败或性能下降
- ⏳ 集群资源碎片化:节点资源充足但 Pod 调度失败
- ⏳ K8s 版本升级踩坑:从 kubeadm 升级到集群迁移
- ⏳ 节点内核版本不统一导致应用行为不一致
- ⏳ 节点备用(cordon/drain)操作导致现有 Pod 被驱逐
- ⏳ 污点和容忍度配置错误导致关键 Pod 被调度到错误节点
- ⏳ kube-proxy 模式切换(iptables→IPVS)引发的连接异常
五、资源管理类
- ⏳ 命名空间资源配额 ResourceQuota 设太严导致部署失败
- ⏳ LimitRange 默认资源限制导致 Pod 启动参数被覆盖
- ⏳ 服务质量类(Guaranteed/Burstable/BestEffort)选错导致 OOM 优先被杀
- ⏳ 集群资源超分导致节点压力过大
- ⏳ 节点资源预留(kube-reserved/system-reserved)配置不当
六、监控 / 可观测类
- ⏳ Metrics Server 部署失败排坑
- ⏳ K8s 日志收集方案(EFK/Loki)配置导致 Pod 日志丢失
- ⏳ 容器内 Java 应用监控指标不准——cgroup 视角的 CPU/内存误解
- ⏳ Prometheus 采集目标丢失——ServiceMonitor 配置排查
- ⏳ K8s Audit Log 未开启——安全事件无法溯源
- ⏳ 事件(Events)信息太多淹没有效告警
七、容器运行时类
- ⏳ 容器中 Java 进程 CPU 使用率不准——容器视角的 CPU 误解
- ⏳ 容器中 -Xmx 不生效?JVM 不能识别 cgroup 限制
- ⏳ 容器镜像太大导致拉取超时——镜像分层优化
- ⏳ 容器内文件系统性能问题——overlay2 vs aufs 选型
- ⏳ Docker/Containerd 运行时异常——daemon 日志排查
- ⏳ 镜像拉取策略 ImagePullPolicy 引发的版本不一致
- ⏳ 容器退出码(Exit Code)看不懂——137/139/143 分别代表什么
- ⏳ Init Container 资源占用过高阻塞后续容器启动
八、安全 / 权限类
- ⏳ RBAC 权限配置不当导致 CI/CD 部署失败
- ⏳ ServiceAccount 没配好导致 Pod 无法调用 API
- ⏳ PodSecurityPolicy/PSA 限制过严导致容器无法启动
- ⏳ 镜像安全扫描漏洞修复后镜像更新策略问题
- ⏳ Secret 加密存储(etcd 加密/KMS)配置排查
- ⏳ 容器以 root 运行的安全风险与配置检查
九、CI/CD / GitOps 类
- ⏳ Helm Chart 升级失败——values 覆盖顺序理解错误
- ⏳ K8s 滚动更新策略导致服务中断——maxSurge/maxUnavailable 设错
- ⏳ ConfigMap/Secret 更新后 Pod 不自动重启
- ⏳ ArgoCD 同步状态显示 OutOfSync——资源漂移排查
- ⏳ Kustomize overlay 层配置覆盖关系理解错误
十、集群运维类
- ⏳ 证书管理:kubelet/kube-apiserver 证书到期处理流程
- ⏳ 集群备份和恢复(Velero)失败排查
- ⏳ 节点内核升级后需要重启——Pod 迁移策略
- ⏳ 集群联邦(Cluster Federation)多集群管理问题
- ⏳ K8s 控制面高可用配置——多 apiserver 负载均衡排障
- ⏳ 集群网络 MTU 不一致导致 Pod 通信异常
最后更新:2026-06