5.1.2 可解释性作为防御工具 5.1.2 可解释性作为防御工具:用 SHAP 值实时检测模型后门攻击 在可信AI的战场中,可解释性早已超越“理解模型为何做出某个决策”的辅助角色,正逐步成为主动防御体系中的关键武器。尤其在对抗日益隐蔽、高度自动化的模型投毒与后门攻击时,传统基于准确率、AUC等宏观指标的监控手段往往滞后且无力——攻击者只需让模型在正常样本上表现如常,仅在特定触发器(trigger)出现时才激活恶意行为。此时,模型整体性能无明显异常,但安全边界已被悄然突破。 那么,有没有一种方法,能在不依赖先验知识的前提下,实时捕捉到模型内部因后门植入而产生的“认知偏移”?答案是肯定的。