4.2 Transformer 模型及其应用 4.2 Transformer 模型及其应用 在计算机视觉领域,尤其是在自动驾驶的背景下,Transformer 模型作为一种强大的深度学习架构,已经彻底改变了我们处理序列数据和理解复杂场景的方式。它最初在自然语言处理(NLP)领域取得了巨大成功,但很快就被证明在图像和视频理解任务中同样有效,为自动驾驶系统带来了前所未有的感知能力。 4.2.1 Transformer 模型概述 传统的卷积神经网络(CNN)在处理局部特征方面表现出色,但其在建模长距离依赖关系方面存在局限性。循环神经网络(RNN)及其变体(如LSTM和GRU)虽然能够处理序列数据,但其固有的顺序性导致并行化困难,并且在处理长序列时容易出现梯度消失或爆炸问题。