1.2.2.1 Operator 与 Hook 你有没有在凌晨两点盯着 Airflow DAG 的日志,看着一个本该 30 秒跑完的 卡在 状态整整 17 分钟,而 里却找不到对应进程? 你有没有在生产环境紧急回滚后,发现某个关键 Hook(比如 )突然开始批量抛出 ,但 S3 桶明明存在、权限也刚验证过——问题只出现在特定时间窗口、特定 Worker 节点,且重启 Scheduler 就暂时消失? 你有没有写过这样的 Operator: 结果下游 Task 死活收不到 XCom,而你在本地调试时一切正常? 这些不是“偶发故障”,也不是“配置疏漏”。