2.4.1 并行文件系统 (Lustre, GPFS/Spectrum Scale, BeeGFS) 2.4.1 并行文件系统:当 Lustre 的 OST 负载失衡悄然吞噬你的 HPC 作业吞吐——一次真实故障的解剖刀式复盘与可复用的动态重平衡策略 凌晨三点十七分,某国家超算中心的作业队列突然集体“窒息”:新提交的 512 节点分子动力学模拟任务平均挂起时间从 8 秒飙升至 217 秒;已运行作业 I/O 吞吐暴跌 63%, 显示部分 OST(Object Storage Target)设备 值突破 1200ms,而另一些 OST 却在 的呼吸节奏中近乎空转。监控面板上,16 个 OST 的 分布像一幅被撕裂的拼图:最高 98.7%,最低 12.3%。这不是负载峰值——这是慢性失血。