3.1 基本思想:直接从声学特征到文本序列映射 3.1 基本思想:直接从声学特征到文本序列映射 端到端语音识别(End-to-End Automatic Speech Recognition, E2E ASR)的核心思想在于摒弃传统语音识别系统中独立建模的声学模型、发音词典和语言模型等模块,转而构建一个单一的神经网络模型,该模型能够直接将输入的声学特征序列映射到输出的文本序列。 这种直接映射的理念是端到端方法最根本的突破,它极大地简化了系统架构,并带来了显著的性能提升。 3.1.1 传统语音识别的局限性与端到端思想的诞生 为了更好地理解端到端思想的优势,我们首先回顾传统语音识别(Hybrid ASR)的典型架构及其存在的局限性。