3.2.3 强化学习中的神经调制(多巴胺与TD误差) 在神经科学与人工智能的交汇处,有一条隐秘却强劲的暗流——它不喧哗,却驱动着海马体中位置细胞的精准导航;它不显形,却塑造着前额叶皮层对延迟奖励的耐心抉择;它不编码具体动作,却为整个大脑的学习系统校准“值”的刻度。这条暗流,就是多巴胺(dopamine, DA)——不是情绪的简单开关,而是一套精密的、基于时间差分(temporal difference, TD)误差的神经调制信标。 你或许已经熟悉Q-learning中那个看似抽象的更新项:$\deltat = r{t+1} + \gamma Q(s{t+1}, a{t+1}) - Q(st, at)$。