4.1.1 FP32, FP16, TF32 与 INT8 的性能对比

文档摘要

4.1.1 FP32, FP16, TF32 与 INT8 的性能对比在深度学习训练与推理的工程实践中，数值表示从来不是一张静态的“数据类型对照表”，而是一场精密的精度—吞吐—内存—硬件协同博弈。当你在 PyTorch 的中划下那行，当 TensorRT 的被调用，当 NVIDIA H100 上的 Transformer 层突然以 TF32 模式悄然执行矩阵乘——你并未只是“切换了一个类型”，而是亲手拨动了浮点单元（FPU）、张量核心（Tensor Core）、内存带宽、缓存层级、甚至编译器调度策略这整套物理与逻辑链条上的关键齿轮。