8.2.2 云原生 HPC 集群自动扩缩容


文档摘要

8.2.2 云原生 HPC 集群自动扩缩容 当 HPC 作业像潮水一样涌来:我们如何让 Kubernetes 集群在 90 秒内从 4 台 GPU 节点暴增至 32 台,且不触发一次 OOM Kill? 你有没有经历过这样的深夜—— 凌晨两点,生物信息团队甩来一个紧急 Slack 消息:“刚跑完 127 个 AlphaFold3 结构预测的参数扫描,下一批 843 个 job 现在排队,deadline 是明早 9 点。集群卡在 16 张 A100 上不动了。” 你扫一眼 Prometheus 面板: 已达 16.0,而 还钉死在 4。


发布者: 作者: 转发
评论区 (0)
U