6.1.1 奖励函数 (Reward Function) 的物理量映射

文档摘要

6.1.1 奖励函数 (Reward Function) 的物理量映射在强化学习的浩瀚星图中，环境是舞台，智能体是演员，而奖励函数——它不是幕布后的灯光师，也不是剧本的旁白者；它是物理世界与决策逻辑之间唯一可微、可导、可优化的神经突触。当你调用的那一刻，真正决定智能体“顿悟”还是“迷失”的，并非状态转移的概率分布，而是那一行看似轻描淡写的 ——它必须承载重量，必须映射真实，必须在毫米级位移与兆瓦级功率之间架起一座可求导的桥。我们今天不谈策略梯度的收敛性证明，也不复现DQN在Atari上的辉煌战绩。我们要沉潜到一个被太多论文轻轻带过、却被每一个落地项目反复拷问的底层接口：6.1.1 奖励函数的物理量映射。