5.1 强化学习 (Reinforcement Learning, RL) 强化学习不是在真空中训练出来的——它是在与环境反复博弈的伤痕中长出的神经突触。当你第一次把一个策略网络丢进Atari游戏里,看着它在Pong中疯狂挥拍却连球都碰不到;当你调试了三天才让机器人在MuJoCo里站稳,结果换一个地板材质就原地跪倒;当你发现奖励函数里一个符号写反,整个策略就学着撞墙自杀……那一刻你才真正明白:RL不是“学习”,而是在失败的废墟上重建因果律的工程实践。 第五章的“学习”二字,绝非泛泛而谈的模型拟合。它直指一个根本性命题:当数据不可交互、任务千变万化、奖励模糊不清时,我们如何让智能体真正“学会”泛化、迁移与推理? 这不是调参的艺术,而是对学习范式本身的再设计。