3.2.3 强化学习中的神经调制（多巴胺与TD误差）

文档摘要

3.2.3 强化学习中的神经调制（多巴胺与TD误差）在神经科学与人工智能的交汇处，有一条隐秘却强劲的暗流——它不喧哗，却驱动着海马体中位置细胞的精准导航；它不显形，却塑造着前额叶皮层对延迟奖励的耐心抉择；它不编码具体动作，却为整个大脑的学习系统校准“值”的刻度。这条暗流，就是多巴胺（dopamine, DA）——不是情绪的简单开关，而是一套精密的、基于时间差分（temporal difference, TD）误差的神经调制信标。你或许已经熟悉Q-learning中那个看似抽象的更新项：$\deltat = r{t+1} + \gamma Q(s{t+1}, a{t+1}) - Q(st, at)$。