3.2.3.2 A/B测试与多臂老虎机策略:动态策略选择 3.2.3.2 A/B测试与多臂老虎机策略:动态策略选择——从“冷启动”到“热收敛”的工程实践 在推荐系统、广告投放、个性化推送等高维在线决策场景中,A/B测试和多臂老虎机(Multi-Armed Bandit, MAB)策略是工程师们最常使用的两类实验与优化范式。前者稳健但静态,后者灵活却敏感。当我们将两者结合,试图构建一个能根据实时反馈动态调整策略权重的系统时,一个看似微小却足以颠覆整个线上效果的细节便浮出水面:如何在冷启动阶段避免因初始探索不足而导致的次优策略锁定(suboptimal policy lock-in)? 这个问题听起来抽象,但在实际业务中,它可能直接导致数百万用户被长期暴露在低效甚至错误的策略下。