线程都在 RUNNABLE,服务却慢如蜗牛?JVM 线程状态认知陷阱


线程都在 RUNNABLE,服务却慢如蜗牛?JVM 线程状态认知陷阱 本文是线上问题实战录系列的第 4 篇 叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 问题现象 2026 年 6 月 19 日上午 9 点,订单服务 order-service 的告警群突然炸了: 接口超时:/api/

线上 CPU 100% 排查:正则表达式导致的性能问题


线上 CPU 100% 排查:正则表达式导致的性能问题 本文是线上问题实战录系列的第 3 篇 叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 问题现象 2026 年 6 月 18 日下午 3 点 15 分,生产监控告警群突然炸了: CPU 100%:身份验证服务 auth-service

频繁 GC 导致 CPU 飙高——GC 线程耗尽 CPU 的真相


频繁 GC 导致 CPU 飙高——GC 线程耗尽 CPU 的真相 系列:线上问题实战录 | CPU 飙高类 · 第 5 篇 本文所有命令和输出均来自真实复现环境,可照步骤重现 1. 问题现象 1.1 告警 周三下午 14:30,身份验证服务群弹出告警: CPU 从 82.4% 开始斜线爬升,15 分

OOM 不会自动 dump?jinfo 一行命令在进程挂掉前抢救 HeapDump


OOM 不会自动 dump?jinfo 一行命令在进程挂掉前抢救 HeapDump 系列:线上问题实战录 | 第 2 篇 本文所有命令和输出均来自真实复现环境,可照步骤重现 1. 问题现象 1.1 告警 凌晨 2:17,告警群弹出: [PRODUCTION] CPU 使用率 </

一个小小的正则如何把 CPU 拖垮?——正则回溯灾难


一个小小的正则如何把 CPU 拖垮?——正则回溯灾难 系列:线上问题实战录 | CPU 飙高类 · 第 4 篇 本文所有命令和输出均来自真实复现环境,可照步骤重现 1. 问题现象 1.1 告警 周三下午 14:23,网关群弹出告警: CPU 99.7%,接口 p99 从 50ms 飙到 12s,下游

容器中 Java 进程 CPU 使用率不准?哪个指标才是真的


容器中 Java 进程 CPU 使用率不准?哪个指标才是真的 本文是线上问题实战录系列的第 5 篇 叙事框架:现象 → 排查过程 → 根因 → 修复 → 预防 问题现象 事情要从 order-service 迁移到 K8s 说起。 迁移完成后,李思远盯着监控面板陷入了沉思——同一个 pod,三个不同