3.2.2.2 双曲空间模型 当双曲空间的指数映射在GPU上突然“失重”:一个关于 数值溢出与梯度爆炸的故障排查手记 凌晨两点十七分,监控告警第三次亮起——推荐系统的双曲嵌入服务(Hyperbolic Embedding Service, HES)延迟飙升至1.8秒,P99响应时间突破SLO阈值200%,下游召回率骤降14.7%。运维群里的消息刷得飞快:“embeddingnorm爆了”“loss nan了”“ 返回全是inf”。我放下刚泡的枸杞茶,把椅子拉近显示器,调出最近一次上线的diff:没错,就是那行看似无害的 —— 它在PyTorch 2.1 + CUDA 12.1环境下,在批量大小为512、曲率 $c=1.0$ 的Poincaré球模型中,正悄然瓦解整个几何感知的根基。