第9章:Transformer:动态拓扑的注意力革命 每一个 Attention Head 都在问:此刻,哪些部分对哪些部分重要? 一、2017年6月的一篇论文 2017年6月12日,Google Brain的Ashish Vaswani等八位作者在arXiv上传了一篇论文,标题是”Attention Is All You Need”。 这个标题很狂妄。当时机器翻译的主流架构是RNN(循环神经网络)和LSTM(长短期记忆网络)——它们统治NLP领域已经超过二十年。而这篇论文说:你们都不需要了,注意力机制就够了。 更狂妄的是,他们是对的。 五个月后,这篇论文被NIPS 2017接收。两年后,BERT、GPT-2横空出世,全部基于Transformer架构。