堆外内存泄漏排查:Netty DirectByteBuffer 导致的服务宕机


堆外内存泄漏排查:Netty DirectByteBuffer 导致的服务宕机 本文是线上问题实战录系列的第 10 篇 叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 问题现象 某周三上午 10:17,告警群弹出网关服务 gateway-service 进程退出的告警。这已经是本月第三次

FullGC 越来越频繁、老年代只增不减——内存泄漏完全指南


FullGC 越来越频繁、老年代只增不减——内存泄漏完全指南 系列:线上问题实战录 | OOM / 内存泄漏类 · 第 2 篇 本文所有命令和输出均来自真实复现环境,可照步骤重现 案例属于线上问题实战录系列,叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 1. 问题现象 1.1 告警 某

容器 CPU Throttling:受限 CPU 下的性能抖动


容器 CPU Throttling:受限 CPU 下的性能抖动 本文是线上问题实战录系列的第 12 篇 叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 问题现象 某日早高峰,支付服务的告警突然响起——接口 P99 从正常的 50ms 飙到 823ms,大量用户反馈支付超时。 告警群消息如

日志风暴打满 CPU——大量日志输出的隐形杀手


日志风暴打满 CPU——大量日志输出的隐形杀手 本文是线上问题实战录系列的第 11 篇 叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 问题现象 某日上午,值班同学收到一条 P2 告警:认证网关服务 CPU 使用率超过 80%。与此同时,用户开始反馈登录响应变慢,接口 P99 从正常时的

锁竞争激烈导致 CPU 飙升——从自旋到锁升级


锁竞争激烈导致 CPU 飙升——从自旋到锁升级 系列:线上问题实战录 | CPU 飙高类 · 第 10 篇 本文所有命令和输出均来自真实复现环境,可照步骤重现 1. 问题现象 1.1 告警 早高峰 9:32,订单服务群弹出告警: CPU 85.2%:且 sy 字段高达 32.4%——系统 CPU 远

框架级 CPU 陷阱:SpringMVC 参数解析器引发的性能雪崩


框架级 CPU 陷阱:SpringMVC 参数解析器引发的性能雪崩 本文是线上问题实战录系列的第 10 篇 叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 问题现象 某日早高峰,告警群突然炸了。 身份验证服务的 P99 延迟从 35ms 飙到 812ms,CPU 使用率从 20% 爬升到

CPU 飙到 100% 却找不到高 CPU 进程?短命进程排查指南


CPU 飙到 100% 却找不到高 CPU 进程?短命进程排查指南 本文是线上问题实战录系列的第 9 篇 叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 问题现象 正值工作日早高峰,Zabbix 告警:报表导出节点 report-prod-02 CPU 使用率 99.2%,已持续 15

Page Cache 管理不当导致的 load 飙高——内存回收篇


Page Cache 管理不当导致的 load 飙高——内存回收篇 本文是线上问题实战录系列的第 8 篇 叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 问题现象 2026 年 6 月 17 日下午 2 点 15 分,监控告警同时触发了四条规则: Load 飙高:CMS 图片处理节点 c

软中断 CPU 飙升:ksoftirqd 线程跑满的排查实录


软中断 CPU 飙升:ksoftirqd 线程跑满的排查实录 系列:线上问题实战录 | CPU 飙高类 · 第 6 篇 本文所有命令和输出均来自真实复现环境,可照步骤重现 1. 问题现象 1.1 告警 周三下午 14:52,文件服务群弹出告警: CPU 软中断 10.6%:si 指标远超阈值 kso