6.1.2 作业调度系统 (Slurm, PBS, LSF) 6.1.2 作业调度系统(Slurm, PBS, LSF):当 提交后作业卡在 (Pending)状态超过17分钟——一次穿透式故障排查与资源拓扑对齐实践 凌晨两点十七分,监控告警第三次亮起:HPC集群上327个GPU训练任务持续挂起在 状态,平均等待时间突破1023秒。这不是负载高峰——集群整体GPU利用率仅19%,CPU空闲率68%,内存余量充足。Slurm的 显示所有作业都写着同一行冰冷的诊断信息: ——这个看似无害的括号,是HPC工程师夜不能寐的起点。它不告诉你缺什么资源,只说“你没拿到”。就像急诊室护士说“病人情况不稳定”,却不报血压、血氧、心电图波形。