Java OOM 排查分析与修复实战手册-牧云

在 OOM 发生前，必须做好以下基础配置，否则排查将寸步难行：

-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/你的日志路径/heapdump.hprof

搭建监控与告警体系：通过 Prometheus + Grafana 等工具监控 JVM 核心指标。设置合理的告警阈值（例如：老年代使用率 > 80%、Full GC 频率 > 1次/小时），在 OOM 真正发生前收到预警。

当线上服务出现 OOM 告警或响应卡顿时，按以下顺序操作：

保留现场（第一优先级）：
- 如果服务还没完全崩溃，立刻手动导出堆快照：jmap -dump:live,format=b,file=/tmp/heap_oom.hprof <pid>。
- 注意：导出快照会触发 Full GC 并导致服务短暂卡顿（STW），但为了定位问题这是必须的。如果服务已完全卡死无法导出，只能依赖“阶段一”中配置的自动快照。
重启恢复业务：现场保留后，立即重启服务以恢复线上业务可用性。
临时扩容（可选）：如果业务压力极大，在重启时可临时调大堆内存参数（如 -Xmx）作为过渡，为后续排查争取时间。

拿到堆快照（.hprof）和 GC 日志后，开始离线分析：

确认 OOM 类型：查看异常日志，明确是堆内存（Java heap space）、元空间（Metaspace）、还是直接内存（Direct buffer memory）溢出。
分析堆快照（核心步骤）：
- 使用 Eclipse MAT 或 JProfiler 打开 .hprof 文件。
- 查看 Dominator Tree（支配树）：按深堆（Retained Heap）降序排列，找出占用内存最大的前几个对象。
- 查看 Leak Suspects（泄漏疑点报告）：工具会自动给出最可疑的内存泄漏点。
追踪引用链：
- 右键点击可疑的大对象，选择 Path to GC Roots -> with all references。
- 分析是谁（例如某个静态的 HashMap、未关闭的线程池或监听器）强引用了这些对象，导致 GC 无法回收。
结合 GC 日志分析：观察 OOM 发生前，Full GC 是否频繁触发，且每次回收后内存下降不明显（说明存在大量顽固的存活对象）。

根据分析出的根因，采取针对性的修复措施：

根因分类	常见场景	修复方案
代码内存泄漏	静态集合无限增长、ThreadLocal 未 remove、资源未关闭	优化代码逻辑，增加清理机制，使用 `try-with-resources` ，改用带淘汰策略的缓存（如 Caffeine）。
大对象加载	一次性查询全表数据、大文件/Excel 导出	改为分批/分页处理（如 MyBatis 游标）、流式处理（Stream）。
JVM 参数不当	堆内存或元空间本身设置过小	合理调大 `-Xmx` 、`-XX:MaxMetaspaceSize` 等参数。

验证上线：

异常类型	常见原因	核心解决方向
Java heap space	内存泄漏、一次性加载数据量过大	分析 Heap Dump，修复泄漏代码或分批处理数据
GC overhead limit exceeded	GC 耗时超过98%但回收不到2%内存	本质也是堆内存不足，优先排查内存泄漏
Metaspace	动态代理类过多、类加载器泄漏	检查 CGLib/ASM 动态生成类逻辑，调大 `-XX:MaxMetaspaceSize`
Unable to create new native thread	线程数超限、线程池配置不当	使用 `jstack` 分析线程，限制线程池大小，检查 `ulimit -u`
Direct buffer memory	NIO 直接内存泄漏（如 Netty 使用不当）	检查 `ByteBuffer` 是否正确释放，调整 `-XX:MaxDirectMemorySize`

在现代微服务架构中，Java 应用常部署在容器内，排查 OOM 时需额外注意以下几点：

区分 JVM OOM 与 OS OOM Kill：
- 如果容器日志中没有 java.lang.OutOfMemoryError，但 Pod 频繁重启，很可能是被操作系统的 OOM Killer 强杀了。
- 可以通过 kubectl describe pod <pod-name> 查看 Pod 事件，如果 Reason 为 OOMKilled，则说明是容器内存超限。
JVM 内存与容器限制的对齐：
- JDK 8u191 之前的版本无法自动识别容器的内存限制（Cgroup），可能会错误地使用宿主机的内存作为基准，导致实际占用远超容器配额。
- 解决方案：务必在启动参数中开启容器感知，并设置合理的堆内存占比。例如：

-XX:+UseContainerSupport -XX:MaxRAMPercentage=75.0

这表示 JVM 最大堆内存将自动设置为容器内存限制的 75%，为元空间、线程栈等预留出足够的安全余量。

Java OOM 排查分析与修复实战手册