第二章 Transformer架构

文档摘要

第二章 Transformer 架构 2.1 注意力机制 2.1.1 什么是注意力机制随着 NLP 从统计机器学习向深度学习迈进，作为 NLP 核心问题的文本表示方法也逐渐从统计学习向深度学习迈进。正如我们在第一章所介绍的，文本表示从最初的通过统计学习模型进行计算的向量空间模型、语言模型，通过 Word2Vec 的单层神经网络进入到通过神经网络学习文本表示的时代。但是，从计算机视觉（Computer Vision，CV）为起源发展起来的神经网络，其核心架构有三种：前馈神经网络（Feedforward Neural Network，FNN），即每一层的神经元都和上下两层的每一个神经元完全连接，如图2.1所示: 图2.