7.1.1 针对 Transformer 结构的深度优化 在大模型推理的战场上,性能不是选择题,而是生死线。当一个 70B 参数的 LLaMA 模型在 A100 上以 12 tokens/s 的速度生成文本时,用户等待的每一秒都在 silently 折损产品体验;而当 TensorRT-LLM 将其推至 89 tokens/s——不是靠堆卡,不是靠降精度,而是靠对 Transformer 结构近乎外科手术式的解剖与重织——我们看到的不再只是数字跃升,而是一整套面向硬件语义重构计算图的工程哲学。