5.1.2 可解释性作为防御工具

文档摘要

5.1.2 可解释性作为防御工具 5.1.2 可解释性作为防御工具：用 SHAP 值实时检测模型后门攻击在可信AI的战场中，可解释性早已超越“理解模型为何做出某个决策”的辅助角色，正逐步成为主动防御体系中的关键武器。尤其在对抗日益隐蔽、高度自动化的模型投毒与后门攻击时，传统基于准确率、AUC等宏观指标的监控手段往往滞后且无力——攻击者只需让模型在正常样本上表现如常，仅在特定触发器（trigger）出现时才激活恶意行为。会员。《5.1.2 可解释性作为防御工具》收录于灏天文库文集《AI安全与对抗机器学习》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号30136。

该文档为会员专享，请先登录或注册后再查看

登录注册