6.3.2.1 极大似然估计 6.3.2.1 极大似然估计:当梯度爆炸撞上对数似然——一个被忽略的数值稳定性陷阱与三行代码的救赎 你有没有在深夜调试一个看似完美的MLE实现,却眼睁睁看着优化器在第7轮迭代后突然输出 ,loss曲线像断崖般垂直坠入虚空? 你有没有把公式抄得一字不差:$\mathcal{L}(\theta) = \sum{i=1}^n \log p\theta(xi)$,可一跑 就报错“Jacobian contains inf or nan”? 你有没有翻遍教材、Stack Overflow、PyTorch文档,最后发现罪魁祸首不是模型结构、不是学习率、甚至不是数据本身——而是你在计算 $\log p\theta(xi)$ 时,直接对原始概率密度值取了对数? 这不是玄学。