2.1.1 数据获取与清洗 在数据工程的浩瀚星图中,2.1.1 数据获取与清洗不是起点,而是第一道真正的“炼金术”工序——它不生产数据,却决定数据能否成为燃料;它不定义业务,却悄然重塑分析的边界。我曾在某头部保险科技平台主导过三代风控数据管道的重构,亲手把一条日均吞吐800万保单事件、横跨17个异构系统的流水线,从“能跑通”推至“可归因、可审计、可反演”。过程中最刺痛的教训是:92%的模型线上性能衰减,根源不在算法调参,而在清洗阶段对异常值的粗暴截断,和对幸存者偏差的视而不见。这不是理论推演,而是凌晨三点盯着监控面板上突然跳升的KS值时,一行 留下的血泪注释。 今天,我们不谈抽象原则,不列宽泛 checklist。