Transformer架构详解


文档摘要

Transformer架构详解 Transformer是现代大语言模型的基础架构,彻底改变了NLP领域。 核心组件 自注意力机制 计算token之间的关联度 Query、Key、Value三矩阵 注意力分数=softmax(QK^T/sqrt(d))V 多头注意力 并行计算多组注意力 每头学习不同的关系 输出拼接后线性变换 位置编码 注入序列顺序信息 使用正弦余弦函数 或可学习的位置嵌入 编码器解码器结构 编码器 自注意力层 前馈神经网络 残差连接和层归一化 解码器 掩码自注意力 交叉注意力(关注编码器输出) 前馈网络 参数量计算 嵌入层:vocabsize dmodel 注意力层:4dmodel^2(每头) FFN层:8dmodel^2 优化技术 Dropout防止过拟合


发布者: 作者: 转发
评论区 (0)
U