Transformer基础架构 Transformer是深度学习的重要架构。 Self-Attention 注意力机制 注意力权重 = softmax(QK^T / √dk)V 多头注意力 多个注意力头并行计算,捕获不同特征。 位置编码 正弦位置编码 使用sin和cos函数编码位置信息。 可学习位置编码 通过训练学习位置嵌入。 前馈网络 每层包含一个两层全连接网络。 编码器解码器 编码器处理输入序列,解码器生成输出序列。 Transformer通过Self-Attention和位置编码实现序列建模。
Transformer是深度学习的重要架构。
注意力权重 = softmax(QK^T / √d_k)V
多个注意力头并行计算,捕获不同特征。
使用sin和cos函数编码位置信息。
通过训练学习位置嵌入。
每层包含一个两层全连接网络。
编码器处理输入序列,解码器生成输出序列。
Transformer通过Self-Attention和位置编码实现序列建模。