2.2.3 后门攻击(Backdoor Attacks) 2.2.3 后门攻击(Backdoor Attacks):触发器注入中的“不可见”陷阱与对抗性优化 在深度学习模型的安全攻防战场上,后门攻击如同一把藏在模型内部的“幽灵钥匙”——它不改变模型在正常输入下的表现,却能在特定触发条件下悄然开启恶意行为的大门。对于部署在金融风控、自动驾驶、医疗诊断等高风险场景的AI系统而言,这种“表面合规、内藏杀机”的特性使其成为最令人警惕的威胁之一。 然而,在真实工程实践中,构建一个稳定、隐蔽且高效的后门并非易事。许多研究者和红队工程师常陷入一个误区:认为只要在训练数据中加入带触发器的样本,并标注为目标类别,就能轻松植入后门。但现实远比理论复杂。触发器若设计不当,极易被防御机制识别;