6.1.1 奖励函数 (Reward Function) 的物理量映射 在强化学习的浩瀚星图中,环境是舞台,智能体是演员,而奖励函数——它不是幕布后的灯光师,也不是剧本的旁白者;它是物理世界与决策逻辑之间唯一可微、可导、可优化的神经突触。当你调用 的那一刻,真正决定智能体“顿悟”还是“迷失”的,并非状态转移的概率分布,而是那一行看似轻描淡写的 ——它必须承载重量,必须映射真实,必须在毫米级位移与兆瓦级功率之间架起一座可求导的桥。 我们今天不谈策略梯度的收敛性证明,也不复现DQN在Atari上的辉煌战绩。我们要沉潜到一个被太多论文轻轻带过、却被每一个落地项目反复拷问的底层接口:6.1.1 奖励函数的物理量映射。