Transformer架构详解 Transformer是现代大语言模型的基础架构,彻底改变了NLP领域。 核心组件 自注意力机制 计算token之间的关联度 Query、Key、Value三矩阵 注意力分数=softmax(QK^T/sqrt(d))V 多头注意力 并行计算多组注意力 每头学习不同的关系 输出拼接后线性变换 位置编码 注入序列顺序信息 使用正弦余弦函数 或可学习的位置嵌入 编码器解码器结构 编码器 自注意力层 前馈神经网络 残差连接和层归一化 解码器 掩码自注意力 交叉注意力(关注编码器输出) 前馈网络 参数量计算 嵌入层:vocabsize dmodel 注意力层:4dmodel^2(每头) FFN层:8dmodel^2 优化技术 Dropout防止过拟合
Transformer架构详解
Transformer是现代大语言模型的基础架构,彻底改变了NLP领域。
核心组件
自注意力机制
计算token之间的关联度
Query、Key、Value三矩阵
注意力分数=softmax(QK^T/sqrt(d))V
多头注意力
并行计算多组注意力
每头学习不同的关系
输出拼接后线性变换
位置编码
注入序列顺序信息
使用正弦余弦函数
或可学习的位置嵌入
编码器解码器结构
编码器
自注意力层
前馈神经网络
残差连接和层归一化
解码器
掩码自注意力
交叉注意力(关注编码器输出)
前馈网络
参数量计算
嵌入层:vocab_size * d_model
注意力层:4d_model^2(每头)
FFN层:8d_model^2
优化技术
Dropout防止过拟合
层归一化稳定训练
残差连接缓解梯度消失
预热学习率调度
变体架构
BERT:仅编码器
GPT:仅解码器
T5:完整编码解码器
训练技巧
梯度裁剪防止爆炸
混合精度训练加速
模型并行处理大模型
数据并行加速训练