6.3.1.2 费希尔信息矩阵 费希尔信息矩阵:不是数学装饰品,而是梯度爆炸的照妖镜与参数更新的导航仪 你有没有在训练一个带隐变量的概率模型时,明明损失函数在下降,但生成样本的质量却越来越差? 有没有调过VAE的KL散度权重,发现稍一加大,$\mathbf{z}$空间就塌缩成一团模糊的云,再怎么加正则、换先验也无济于事? 有没有在实现贝叶斯神经网络的拉普拉斯近似时,算出的后验协方差矩阵——那个本该是正定、可逆、反映参数不确定性的“信任地图”——却频频报错 ,甚至出现负特征值? 别急着怀疑初始化、学习率或数据预处理。