4.1.1 数据投毒防御 4.1.1 数据投毒防御:从训练数据中揪出“内鬼”——基于统计异常检测的样本清洗实战 在机器学习模型的生命周期中,训练阶段往往被视为最“安全”的环节。毕竟,此时我们尚未将模型部署到线上,也未暴露于对抗性攻击之下。然而,正是这种“安全错觉”,让许多团队忽视了潜藏在训练数据中的致命威胁——数据投毒(Data Poisoning)。它不像推理阶段的对抗样本那样张扬,却如慢性毒药般悄然侵蚀模型的根基。更可怕的是,一旦模型被投毒成功,其行为偏差可能长期潜伏,直到关键决策时刻才突然爆发,造成不可逆的损失。 那么,如何在海量、高维、异构的训练数据中,精准识别并剔除那些看似正常、实则恶意的“内鬼”样本?