6.2.3 学习动态:强化学习与虚构博弈 在多智能体系统中,当个体无法预知对手策略、缺乏全局信息、甚至无法进行理性贝叶斯推断时,博弈的演化不再依赖纳什均衡的静态精炼,而转向一种更贴近生物适应与人类学习本质的动态过程——策略随时间被反复试错、评估、微调、传播。这正是演化博弈论第六章第二节第三节所锚定的核心战场:学习动态(Learning Dynamics)。它不是在解一个方程,而是在模拟一条河流的走向:水滴如何试探岩缝,支流如何汇入主干,浑浊如何沉淀为澄澈。而在这条河床之上,两条最具工程穿透力的支流正奔涌交汇——强化学习(Reinforcement Learning, RL)与虚构博弈(Fictitious Play, FP)。