TinyTransformer


文档摘要

Tiny Transformer 引言 自然语言处理与图像具有显著差异,自然语言处理任务也具有其独特性。相对于 CNN(卷积神经网络)在 CV 中的霸主地位,在很长一段时间里,RNN(循环神经网络)、LSTM(长短期记忆递归神经网络)占据了 NLP 的主流地位。作为针对序列建模的模型,RNN、LSTM 在以序列为主要呈现形式的 NLP 任务上展现出远超 CNN 的卓越性能。​但是 RNN、LSTM 虽然在处理自然语言处理的序列建模任务中得天独厚,却也有着难以忽视的缺陷: ​1. RNN 为单向依序计算,序列需要依次输入、串行计算,限制了计算机的并行计算能力,导致时间成本过高。 ​2. RNN 难以捕捉长期依赖问题,即对于极长序列,RNN 难以捕捉远距离输入之间的关系。


发布者: 作者: 转发
评论区 (0)
U