5.1.1 对抗脆弱性的归因分析 5.1.1 对抗脆弱性的归因分析:从梯度饱和到敏感路径的实战诊断 在可解释AI(Explainable AI, XAI)的工程实践中,我们常面临一个令人不安的事实:模型对输入扰动异常敏感。一张猫的图片,仅仅加入人眼无法察觉的微小噪声,就可能被分类为“烤面包机”;一段医疗文本中插入几个看似无害的停用词,诊断结论便从“良性”变为“恶性”。这种对抗脆弱性不仅动摇了模型的可靠性,更使得任何基于模型输出的归因分析(如显著图、特征重要性)变得可疑——如果模型本身在边界上摇摇欲坠,那么它所“解释”的理由,是否也只是幻觉? 然而,在真实工业场景中,我们不能止步于“模型不可信”的悲观结论。作为一线工程师,我们的任务是定位脆弱性的根源,并通过归因工具反向诊断模型内部的失效机制。