2.1 传统ASR架构 (声学模型、发音词典、语言模型)

文档摘要

2.1 传统ASR架构 (声学模型、发音词典、语言模型) 2.1 传统ASR架构 (声学模型、发音词典、语言模型) 传统自动语音识别 (ASR) 系统通常采用模块化设计，将语音识别过程分解为几个独立的组件，每个组件负责处理语音信号的不同方面。这种架构的主要优势在于其可解释性和模块化，使得每个组件都可以独立开发、优化和维护。然而，这种分离也带来了组件间错误累积和信息瓶颈的问题。 2.1.1 传统ASR系统概述传统ASR系统的工作流程可以概括为以下几个主要步骤：特征提取 (Acoustic Feature Extraction)：将原始语音信号转换为一系列能够捕捉语音本质特征的数值向量。常用的特征包括梅尔频率倒谱系数 (MFCC) 或感知线性预测 (PLP) 系数。