1.2.3 一致性:确保不同后端下的推理结果数值对齐 在大模型推理服务的工程实践中,我们常被一个问题反复叩问:当同一份 Prompt 输入到 PyTorch、ONNX Runtime、TensorRT 甚至 vLLM 的不同后端时,为什么 logits 的第 37 位浮点数会差 $2.3 \times 10^{-6}$?为什么 top-k 采样结果在第 12 轮解码时悄然分叉?为什么 A/B 测试中,看似相同的模型版本,在 GPU A 上返回 ,在 GPU B 上却生成 ——语义等价,但 token ID 序列已不一致? 这不是玄学,也不是“浮点误差不可避免”的托辞。