4.4.2 NVIDIA Hopper 架构下的 FP8 推理支持


文档摘要

4.4.2 NVIDIA Hopper 架构下的 FP8 推理支持 4.4.2 NVIDIA Hopper 架构下的 FP8 推理支持:从硬件原语到端到端可部署流水线的深度实践 你有没有试过在 A100 上把一个 7B 模型跑出 120 tokens/s 的吞吐,却在 H100 上——同一份代码、同一套框架、甚至同一行 调用——突然卡在 里多等了 8 毫秒?不是显存不足,不是 kernel launch 失败,也不是 OOM;而是某次 的输出张量,在进入 激活前,被悄悄截断了两位有效比特——而你直到用 抽丝剥茧到 的内部 dispatch 表时,才意识到:FP8 不是“开了就快”,它是一套需要重新校准计算契约的新范式。


发布者: 作者: 转发
评论区 (0)
U