6.3.1 信息几何 在深度学习与现代机器学习的洪流中,我们早已习惯用梯度下降“蛮力”优化参数,靠调参经验摸索收敛路径,用早停、学习率预热、权重衰减等“工程直觉”对抗病态损失曲面。但有没有一种可能——模型参数空间本身并非欧几里得平原,而是一片起伏剧烈、各向异性的统计山峦?在那里,一步一米的欧氏距离,未必对应着一比特的信息增益;两个看似接近的模型,其真实“语义距离”可能隔着一道信息悬崖;而一条看似笔直的优化轨迹,实则在曲面上绕了巨大弯路。 这并非哲学遐想,而是信息几何(Information Geometry)给出的严格数学现实。它不是为机器学习新增一个“可选模块”,而是为我们重新校准整个建模坐标的底层罗盘。