6.3.2.1 极大似然估计

文档摘要

6.3.2.1 极大似然估计 6.3.2.1 极大似然估计：当梯度爆炸撞上对数似然——一个被忽略的数值稳定性陷阱与三行代码的救赎你有没有在深夜调试一个看似完美的MLE实现，却眼睁睁看着优化器在第7轮迭代后突然输出，loss曲线像断崖般垂直坠入虚空？你有没有把公式抄得一字不差：$\mathcal{L}(\theta) = \sum{i=1}^n \log p\theta(xi)$，可一跑就报错“Jacobian contains inf or nan”？你有没有翻遍教材、Stack Overflow、PyTorch文档，最后发现罪魁祸首不是模型结构、不是学习率、甚至不是数据本身——而是你在计算 $\log p\theta(xi)$ 时，直接对原始概率密度值取了对数？这不是玄学。