3.1.3 结构性剪枝与冗余算子消除 在深度学习模型部署的战场上,静态计算图不是一张供人欣赏的装饰画——它是一份精密的工程蓝图,是编译器逐行解析、调度器逐节点执行、硬件单元逐周期吞吐的“宪法性文件”。当我们在 PyTorch 的 图、TensorFlow 的 、或 ONNX 的 中看到一个 节点后面紧跟着一个 ,再接一个 ,这三者在语义上本可融合为单一算子;而当某一层的输出张量被两个下游分支分别引用,其中一支路径在训练时参与梯度回传、另一支却仅用于日志打印或调试钩子( + ),那条调试路径在推理阶段就不再是“旁观者”,而是实实在在的冗余计算负担——它不贡献精度,却吞噬内存带宽、拖慢 kernel 启动、污染 L1 缓存行。