注意力机制与变换器 课前小测验 自然语言处理领域中最重要的一项任务是机器翻译,这是像谷歌翻译这样的工具的基础。在这一部分中,我们将专注于机器翻译,或者更广泛地说,任何序列到序列的任务(也称为句子转换)。 使用RNNs实现序列到序列的方法是通过两个递归网络,其中一个是编码器,它将输入序列压缩成一个隐藏状态;另一个是解码器,它将这个隐藏状态展开为翻译结果。这种方法存在一些问题: 编码器网络的最终状态很难记住句子的开头,因此对于长句来说,模型的质量较差。 序列中的所有词对结果的影响相同。但实际上,在输入序列中,某些词对后续输出的影响往往比其他词更大。 注意力机制提供了一种方法来衡量每个输入向量对RNN每个输出预测的上下文影响。其实现方式是创建输入RNN和输出RNN之间的一些捷径。