Transformer基础架构:Self-Attention与位置编码


文档摘要

Transformer基础架构 Transformer是深度学习的重要架构。 Self-Attention 注意力机制 注意力权重 = softmax(QK^T / √dk)V 多头注意力 多个注意力头并行计算,捕获不同特征。 位置编码 正弦位置编码 使用sin和cos函数编码位置信息。 可学习位置编码 通过训练学习位置嵌入。 前馈网络 每层包含一个两层全连接网络。 编码器解码器 编码器处理输入序列,解码器生成输出序列。 Transformer通过Self-Attention和位置编码实现序列建模。

Transformer基础架构

Transformer是深度学习的重要架构。

Self-Attention

注意力机制

注意力权重 = softmax(QK^T / √d_k)V

多头注意力

多个注意力头并行计算,捕获不同特征。

位置编码

正弦位置编码

使用sin和cos函数编码位置信息。

可学习位置编码

通过训练学习位置嵌入。

前馈网络

每层包含一个两层全连接网络。

编码器解码器

编码器处理输入序列,解码器生成输出序列。

Transformer通过Self-Attention和位置编码实现序列建模。


发布者: 作者: 转发
评论区 (0)
U