2.4 批量归一化 (Batch Normalization) 与层归一化 (Layer Normalization) 2.4 批量归一化 (Batch Normalization) 与层归一化 (Layer Normalization) 2.4.1 引言 深度神经网络的训练是一个复杂的过程,涉及到许多因素,如梯度消失/爆炸、学习率选择、网络初始化等。其中,内部协变量偏移 (Internal Covariate Shift) 是一个关键问题,它指的是网络在训练过程中,各层输入的分布不断变化,导致后续层需要不断适应新的分布,从而降低了训练速度和模型的泛化能力。