10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm Norm(Normalization) 首先,LayerNorm和BatchNorm的Norm是Normalization的缩写,不是Norm-范数。 Normalization在统计学中一般翻译为归一化,还有类似的是Standardization,一般翻译成标准化。这两个概念有什么区别呢? 归一化是将数据缩放到0-1之间,标准化是将数据缩放到均值为0,方差为1的正态分布。 alt text 有时候Normalization和Standardization会混淆,注意看清楚即可,不纠结细节。