6.3.3.2 热点算子识别 6.3.3.2 热点算子识别:不是看“谁在喘气”,而是听“哪根管道在尖叫” 凌晨两点十七分,Flink作业的背压水位线突然从 0.3 跳到 0.97——不是缓慢爬升,是断崖式刺穿。监控面板上,所有 Subtask 的 Input Rate 齐刷刷跌停,Checkpoint 间隔从 30 秒拉长到 4 分 18 秒,TaskManager 日志里开始滚动 。运维同学甩来截图,问:“哪个算子堵了?快切掉它!” 你盯着 Metrics 页面上密密麻麻的 、 、 ,手指悬在键盘上方——却迟迟不敢敲下 。 因为你知道:背压不是故障的终点,而是线索的起点;而“热点算子”,从来不是那个吞吐最低的节点,而是那个让上游集体窒息的“静音杀手”。