1.1.2.1 写优化 vs 读优化 1.1.2.1 写优化 vs 读优化:当 LSM-Tree 的 MemTable 溢出撞上 Kafka 生产者重试风暴——一个真实线上故障的根因解剖与反模式修复 凌晨两点十七分,告警钉钉弹窗炸开第三轮红点:“userprofilewritelatencyp99 ↑↑↑ 2800ms”;Prometheus 图表上,写入延迟曲线像被高压电击中的蚯蚓,剧烈抽搐;而同一时刻,读取延迟纹丝不动,p95 稳在 8ms。运维同事甩来一句:“读没事,写崩了——是不是你们新上的用户标签写入服务又双叒叕搞事情?” 这不是演习。这是某千万级DAU社交平台在灰度上线“实时兴趣画像同步模块”后的第37小时。