3.2.2 异常检测与置信度校准 3.2.2 异常检测与置信度校准:用温度缩放(Temperature Scaling)驯服模型的“过度自信” 在真实世界的机器学习系统中,我们常常面对一个令人困惑却又普遍存在的现象:模型在测试集上准确率高达98%,但一旦部署上线,却频繁对错误样本给出极高的置信度——比如将一张模糊的猫图判为“狗”,且概率高达0.99。这种“过度自信”不仅误导下游决策模块,更严重削弱了异常检测机制的有效性。当模型连自己错得离谱都浑然不觉时,任何基于置信度阈值的过滤策略都将形同虚设。 问题出在哪里?答案往往不在模型结构本身,而在于其输出概率的校准性(calibration)。