预训练大型语言模型

文档摘要

预训练大型语言模型在我们之前的所有任务中，我们都在使用标记数据集对神经网络进行特定任务的训练。对于像BERT这样的大型变压器模型，我们使用自监督的语言建模来构建一个语言模型，然后通过进一步的领域特定训练将其专门化为特定的下游任务。然而，已经证明大型语言模型也可以在没有任何领域特定训练的情况下解决许多任务。能够做到这一点的一类模型被称为GPT：生成式预训练变压器。课前测验文本生成和困惑度在论文《Language Models are Unsupervised Multitask Learners》中提出了一个神经网络能够在没有下游训练的情况下执行一般任务的想法。主要思想是许多其他任务都可以通过文本生成来建模，因为理解文本本质上意味着能够生成它。