6.3.1 信度分配 (Credit Assignment):如何衡量个体对集体目标的贡献 6.3.1 信度分配(Credit Assignment):如何衡量个体对集体目标的贡献 ——一个被低估的“反向传播幽灵”,在多智能体强化学习中真实撕裂过我们三台GPU服务器的故障复盘 凌晨两点十七分,监控告警第三次弹出: 的策略梯度方差突增47倍, 的价值函数崩溃为 NaN,而整个集群在连续18小时训练后,集体目标(城市交通信号灯协同优化的平均通行延误下降≥23%)不升反降——从14.8秒滑落到16.3秒。这不是模拟器里的玩具实验,这是部署在杭州城西科创大走廊的真实边缘计算节点群,运行着我们自研的异构多智能体交通调度系统(MA-TRAFFIC v2.1)。