8.2.1 生产环境 Checklist 8.2.1 生产环境 Checklist:不是一张纸,而是一套可执行的防御性工程协议 你有没有经历过这样的凌晨三点?告警风暴在 PagerDuty 里炸开,CPU 持续 98%,Prometheus 的 突然跳升至 2.3s,下游服务开始雪崩式超时,而你的 输出里赫然躺着三个 的 Pod——它们昨天还健康得像刚出厂的服务器。你翻出部署清单,发现其中一项写着“✅ 已配置资源限制”,但 显示: , 。十倍的 request/limit ratio,就像给消防栓装了个儿童水枪喷嘴——系统一压,调度器直接把它塞进一台满载的 Node,OOM Killer 在凌晨 2:47:13 毫不犹豫地 了它的主进程。 这不是故障,是可预见的失效。