3.2.1 行为策略与序列形式 在博弈论与人工智能交叉的深水区,有一片被长期低估却日益关键的技术腹地——不完美信息博弈中的行为策略建模与序列形式(Sequence Form)实现。它不是教科书里静止的定义,而是扑克AI击败人类冠军的底层引擎;不是理论推演中轻描淡写的“将混合策略映射为序列向量”,而是你在调试一个反事实遗憾最小化(CFR)求解器时,凌晨三点盯着 这行代码反复核对索引越界原因的真实战场。 我们今天要拆解的,正是这个腹地的核心工事:3.2.1 行为策略与序列形式。这不是一次概念复述,而是一场带工具、带焊枪、带内存地址的现场施工。我们将亲手构建一个可运行、可调试、可扩展的序列形式策略表示系统,从张量维度的抉择,到动作依赖图的拓扑排序;