8.1.1 OOM 错误处理 OOM(Out-of-Memory)错误,是系统在内存资源耗尽时抛出的最后一道红色警报——它不是警告,而是判决;不是提示,而是终审。当JVM拒绝再分配堆内存、Linux内核启动OOM Killer强行终结进程、或容器被cgroup无情驱逐时,我们面对的已不是一段异常栈,而是一场正在发生的系统性崩溃。它不挑时间:凌晨三点的订单洪峰、实时风控模型的批量推理、甚至一次看似无害的报表导出,都可能成为压垮内存的最后一根稻草。可悲的是,太多团队仍把OOM当作“重启就能好”的临时故障;更危险的是,有人把它归咎于“流量太大”,却对内存中每一字节的来龙去脉浑然不知。 真正的OOM处理,从来不是事后救火,而是一场贯穿开发、测试、部署、监控全生命周期的精密内存治理工程。