4.1 Transformer模型深入解析


文档摘要

4.1 Transformer模型深入解析 第四章:大模型核心架构领域 - 4.1 Transformer模型深入解析 4.1.1 Transformer模型诞生的背景与意义 在Transformer模型出现之前,循环神经网络(RNNs)及其变体(如LSTM、GRU)是序列建模任务的主流选择。然而,RNNs存在着固有的缺陷: 串行计算限制: RNNs需要按时间步顺序计算,难以并行化,限制了训练速度和处理长序列的能力。 梯度消失/爆炸: RNNs在处理长序列时容易出现梯度消失或爆炸问题,导致难以捕捉长距离依赖关系。 为了克服RNNs的局限性,Vaswani等人在2017年的论文 "Attention is All You Need" 中提出了Transformer模型。


发布者: 作者: 转发
评论区 (0)
U