1.2 传统序列模型(RNN/LSTM)的局限性


文档摘要

1.2 传统序列模型(RNN/LSTM)的局限性 1.2 传统序列模型(RNN/LSTM)的局限性 在Transformer模型出现之前,循环神经网络(RNN)及其变体,特别是长短期记忆网络(LSTM)和门控循环单元(GRU),是处理序列数据的主流模型。它们通过维护一个隐藏状态来逐步处理序列中的每个元素,理论上能够捕捉序列中的长期依赖关系。然而,尽管RNN/LSTM在许多序列任务上取得了显著成功,它们也存在一些固有的局限性,这些局限性成为了推动Transformer等新架构诞生的重要原因。 1.2.1 序列化处理与并行化难题 RNN/LSTM模型的核心在于其循环结构,即当前时间步的计算依赖于前一时间步的隐藏状态和当前输入。这种固有的顺序性使得模型必须按时间步逐个进行计算。 图 1.2.


发布者: 作者: 转发
评论区 (0)
U