6.3.1 信息几何

文档摘要

6.3.1 信息几何在深度学习与现代机器学习的洪流中，我们早已习惯用梯度下降“蛮力”优化参数，靠调参经验摸索收敛路径，用早停、学习率预热、权重衰减等“工程直觉”对抗病态损失曲面。但有没有一种可能——模型参数空间本身并非欧几里得平原，而是一片起伏剧烈、各向异性的统计山峦？在那里，一步一米的欧氏距离，未必对应着一比特的信息增益；两个看似接近的模型，其真实“语义距离”可能隔着一道信息悬崖；而一条看似笔直的优化轨迹，实则在曲面上绕了巨大弯路。这并非哲学遐想，而是信息几何（Information Geometry）给出的严格数学现实。它不是为机器学习新增一个“可选模块”，而是为我们重新校准整个建模坐标的底层罗盘。