8.1.3 精度控制:Float vs Half 的选择原则 在深度学习系统工程的精密齿轮组中,精度控制从来不是一句“用FP16加速”就能轻轻带过的权宜之计——它是一场在数值稳定性、内存带宽、计算吞吐与模型收敛性之间反复校准的微操艺术。当我们站在8.1.3这一节的刻度线上,面对的已不再是“要不要用Half”的二元选择题,而是:在ResNet-50第3个Bottleneck的Conv2d层梯度更新时,是否允许其反向传播路径中的 张量参与AdamW的momentum累加?若允许,需在哪个算子后插入 ?若不允许,又该如何在不破坏FP32 master weight机制的前提下,为该层单独启用动态损失缩放(dynamic loss scaling)?