7.1.2 数据稀疏性(Sparsity)与插补算法(Imputation) 在工业级数据工程实践中,我们常把缺失值比作数据库里的“幽灵字段”——它不报错,却悄然腐蚀模型的泛化能力;它不拒绝训练,却让AUC曲线在验证集上诡异地滑坡;它甚至不会触发告警,直到某天风控模型突然对高净值客户批量误判,才被深夜的值班工程师在日志里揪出来。这不是危言耸听。据2023年Kaggle《State of Data Science》报告统计,87.4%的结构化数据项目在预处理阶段遭遇中度以上稀疏性问题,其中32%的案例中,缺失率超过15%的特征直接导致下游XGBoost模型F1-score下降11.6个百分点——而这个数字,在时序预测任务中会放大至23.8%。