13.2 在线学习与实时优化(Bandit算法、在线凸优化) 13.2 在线学习与实时优化:Bandit算法与在线凸优化的博弈之舞 想象你站在一个巨大的老虎机前,不是拉斯维加斯那种霓虹闪烁的娱乐机器,而是一个由无数决策路径交织成的抽象空间。每一次拉杆,都是一次对未知回报的试探;每一次选择,都在重塑你对未来最优策略的认知。这不是赌博,而是现代运筹学与控制论中最富张力的研究前沿——在线学习与实时优化的核心隐喻。在这里,Bandit算法是你的直觉导航仪,在线凸优化则是你的理性罗盘,二者共同引导你在信息不完备、环境动态演化的复杂系统中,走出一条渐进最优的轨迹。 一、从静态规划到动态响应:为何我们需要“在线”?