第6章 模型训练


文档摘要

第6章 模型训练 上一章中,我们讨论了大语言模型(例如,Transformer)的模型结构。 在本章中,我们将讨论如何训练大语言模型。 本章分成目标函数和优化算法两部分。 6.1 目标函数 我们研究三类语言模型的目标函数: 只包含解码器(Decoder-only)的模型(例如,GPT-3):计算单向上下文嵌入(contextual embeddings),一次生成一个token 只包含编码器(Encoder-only)的模型(例如,BERT):计算双向上下文嵌入 编码器解码器(Encoder-decoder)模型(例如,T5):编码输入,解码输出 我们可以使用任何模型将token序列映射到上下文嵌入中(例如,LSTM、Transformers): $$ \phi : V^L \to


发布者: 作者: 转发
评论区 (0)
U