3.2 多头注意力机制(Multi-Head Attention)


文档摘要

3.2 多头注意力机制(Multi-Head Attention) 3.2 多头注意力机制(Multi-Head Attention) 在Transformer模型中,注意力机制是核心。然而,仅使用单一的注意力函数(如前面提到的点积缩放注意力)可能存在局限性。一个单一的注意力头可能会过度关注输入序列中的某个特定方面或关系,而忽略了其他同样重要的信息。为了捕捉更丰富、更全面的依赖关系,Transformer引入了多头注意力机制。 多头注意力机制的核心思想是并行地运行多个注意力函数(称为“头”),每个头独立地学习如何关注输入的不同表示子空间。然后,将这些独立注意力头产生的输出拼接(Concatenate)起来,再通过一个最终的线性变换,得到多头注意力的最终输出。


发布者: 作者: 转发
评论区 (0)
U