7.1.1.1 多元微积分与线性代数 当雅可比矩阵在反向传播中“突然消失”:一个被低估的数值陷阱与三行代码的救赎 你有没有在调试一个看似结构完美的神经网络时,突然发现梯度全部归零?不是因为学习率设得太低,也不是因为激活函数选错了——而是某一层的输出对输入的偏导数,在前向计算中明明是合理的浮点数,反向传播时却诡异地坍缩成全零矩阵?更诡异的是,把这一层单独拎出来做数值梯度验证(finite difference),结果又完全正常。模型训练几轮后,权重纹丝不动,loss曲线平得像冻住的湖面。