2.2.2.1 算子融合 (Operator Fusion):Conv+ReLU, Gemm+Add 当ReLU的梯度在Conv后“迷路”:一个被忽略的算子融合边界条件与CUDA Kernel级修复实践 你有没有在部署一个轻量级ResNet-18到边缘端推理引擎时,发现FP16精度下ReLU的输出张量里,某些通道的激活值突然全为零?不是训练崩溃,不是量化溢出,也不是BN层未冻结——它只在启用 融合后出现;一旦禁用融合、让两个算子独立调度,问题就消失。更诡异的是,这个现象只发生在特定输入尺寸(比如$H=56, W=56$)和特定卷积核配置($3\times3$,stride=1,padding=1,outchannels=64$)下,且仅限于NVIDIA T4 GPU上,A100上完全正常。