6.2.2 中心化训练与去中心化执行 (CTDE) 6.2.2 中心化训练与去中心化执行(CTDE):当QMix的混合网络在分布式推理时突然“失联”——一个被忽略的梯度截断陷阱与三行修复方案 凌晨两点十七分,某智能仓储调度系统的多智能体强化学习模型在灰度发布后出现诡异抖动:训练阶段奖励曲线光滑如镜,单智能体本地策略推理延迟稳定在8ms以内,但一旦接入真实AGV集群,任务完成率从98.7%断崖式跌至61.3%,且故障日志里没有报错、没有超时、没有OOM——只有一串沉默的 梯度和逐渐归零的Q值输出。 这不是玄学。这是CTDE范式在工程落地时最锋利的一道暗刃:训练时你信誓旦旦地把所有智能体的观测、动作、全局状态塞进一个中央网络里做联合优化;