4.1.2.1 基于 Airflow 的调度采集 4.1.2.1 基于 Airflow 的调度采集:当 DAG 调度“准时”却数据“迟到”——一次对 与 混淆引发的跨日空跑事故复盘与根治方案 凌晨两点十七分,监控告警弹窗在 Slack 频道炸开: 而此刻,系统时间是 2024-09-16 02:17:03 UTC。 DAG 的 明明设为 (每日 UTC 0 点触发),按理说,它该处理 2024-09-15 全天的数据;可任务里拼出的分区条件却是 ——它正试图去读一个尚未生成、物理上根本不存在的日期目录。更讽刺的是,下游所有依赖此任务输出的模型训练、报表生成、BI 推送,全部卡死在 状态,像一列误入单行隧道的高铁,前后皆断。 这不是偶发故障。