4.4 Conformer (结合CNN和Transformer) 4.4 Conformer (结合CNN和Transformer) 在端到端语音识别领域,Conformer 架构的出现标志着模型设计的一个重要里程碑,它巧妙地融合了卷积神经网络(CNN)的局部特征提取能力和 Transformer 模型在捕获长距离依赖方面的优势。这种混合架构旨在克服纯粹基于 Transformer 模型在处理语音信号时可能存在的计算效率和对局部信息敏感度不足的问题,同时弥补纯粹基于 CNN 模型在全局上下文建模上的局限性。 4.4.1 Conformer 的核心思想与背景 传统的 Transformer 模型,尤其是其核心的自注意力机制,能够有效地捕捉序列中的长距离依赖关系。