7.2.3 鲁棒性、泛化性与安全性评估指标 当模型在测试集上准确率98%,却在生产环境里把“消防栓”认成“热狗”:鲁棒性评估中那个被所有人忽略的梯度扰动阈值 你有没有见过这样的场景? 凌晨两点,线上告警疯狂闪烁——推荐系统突然开始给所有用户推送“高危医疗咨询”,而触发条件,仅仅是某张用户头像被加了0.3%的高斯噪声; 灰度发布后,OCR服务对身份证照片的识别准确率从99.2%暴跌至61.7%,排查三天才发现,问题出在某批新采集的样本里,有17%的图像在JPEG压缩时启用了 而非默认的 ;