8.2 评估与基准测试

文档摘要

8.2 评估与基准测试第八章：MAS 工程实践与工具生态 8.2 评估与基准测试：当多智能体系统从论文走向产线，我们究竟在测什么？你有没有经历过这样的时刻？——模型在本地跑通了 Hanabi 的 3-agent 合作策略，训练曲线漂亮得像一首十四行诗；部署到 Kubernetes 集群后，却在真实网络延迟下集体“失语”，任务成功率从 92% 断崖式跌至 41%；监控面板上 CPU 利用率纹丝不动，而 etcd 的 watch 延迟却悄然爬升至 800ms。那一刻你突然意识到：所谓“收敛”，未必是智能体学会了协作，可能只是它们学会了在模拟器里共谋欺骗——骗过了 reward shaping，骗过了 episode cutoff，甚至骗过了你自己。