8.2.2 威慑与军备竞赛 8.2.2 威慑与军备竞赛:从博弈建模到可信威慑系统的工程实现 你有没有想过——一枚洲际弹道导弹的飞行轨迹,为什么不是越快越好?为什么发射井要深埋在花岗岩层之下?为什么“核常兼备”的高超声速武器系统必须同时满足 $M>5$、$H>30\,\text{km}$、$\dot{\gamma} 10%,$rt = -0.3$ 当单发成本超支 >15%; 对手建模:每个智能体维护一个“对手策略网络” $\pi^{\text{opp}}$,其参数通过观察对方历史动作在线更新(类似 LOL 中的“英雄池建模”)。 训练在 NVIDIA DGX-A100 集群上进行,使用 256 个并行环境模拟不同地缘场景(东亚、东欧、中东)。