Transformer 注意力机制在深度学习模型中无处不在,它有助于提高机器翻译的准确性。在这篇文章中,我们将学习Transformer方法,一个利用注意力来提升模型训练速度的机制。Transformer在特定任务中优于谷歌机器翻译模型。然而,最大的好处得益于Transformer的并行能力。事实上,谷歌云建议使用Cloud TPU提供的Transformer作为参考模型。因此,接下来我们对模型以及其相应模块进行分析。 Transformer是在论文《 Attention is All You Need》中提出的。TensorFlow对应的实现可以使用Tensor2Tensor库提供的接口。在这篇文章中,我们将尝试简化理解,并逐一介绍概念,希望使没有相应基础的同学更容易理解。