1.2.2 联结主义与深度学习的赋能 1.2.2 联结主义与深度学习的赋能:梯度消失不是宿命,而是可解的工程问题——LSTM门控机制失效时的三重诊断与实时修复路径 你有没有在凌晨三点盯着训练曲线发呆?模型在前50个epoch还能稳稳下降,第51轮开始,loss突然“躺平”,梯度norm从$10^{-2}$断崖式跌到$10^{-6}$以下,验证集accuracy卡在62.3%再也纹丝不动——而你的LSTM层足足堆了4层,seqlen=256,batchsize=32,初始化用的是 ,优化器是AdamW,lr=3e-4,weightdecay=1e-2……一切看起来都“教科书般正确”。 但现实从不按教科书走。 这不是玄学,也不是数据质量问题。