1.2 端到端语音识别的定义与重要性

文档摘要

1.2 端到端语音识别的定义与重要性 1.2 端到端语音识别的定义与重要性 1.2.1 定义端到端语音识别（End-to-End Automatic Speech Recognition, E2E ASR）是一种将语音信号直接映射到文本序列的机器学习范式，其核心思想在于摒弃了传统语音识别系统中独立建模的多个模块（如声学模型、发音词典和语言模型），而是采用一个单一的神经网络模型来完成从声学特征到字符或词汇序列的转换。在传统语音识别系统中，语音识别过程通常被分解为若干个独立的阶段：声学特征提取：将原始语音波形转换为一系列声学特征，如梅尔频率倒谱系数（MFCCs）或滤波器组能量（FBank）。