2.1.2.2 特征选择与降维 2.1.2.2 特征选择与降维:当 PCA 遇上类别不平衡——不是降维,是“削足适履” 你有没有试过这样的情形? 模型在训练集上 AUC 0.97,验证集掉到 0.73; 特征重要性排序里,前五名全是 ID 类字段( , ); PCA 降维后,解释方差比曲线平缓得像高原——前 50 个主成分只累计解释 62% 的方差; 而当你把原始 387 维特征喂给 LightGBM,调参三天后,发现去掉 和 反而 AUC +0.015…… 这不是玄学。这是特征工程最常被掩盖的真相:降维与选择,从来不是数学题,而是诊断学。 我们习惯把 PCA、SelectKBest、RFE 当作“标准流程”,却忘了它们背后站着一个沉默的判官——数据分布的结构性偏斜。