二、 语音识别基础理论 二、 语音识别基础理论 语音识别(Automatic Speech Recognition, ASR)技术旨在将人类的语音信号转换为对应的文本信息。在Kaldi工具包的实践中,深入理解其背后的语音识别基础理论至关重要。本章将详细阐述语音识别系统的核心组成部分、关键模型、语言学资源以及解码算法,并介绍常用的性能评估指标。 2.1 语音识别系统组成 一个典型的现代语音识别系统通常由以下几个核心模块构成,它们协同工作,共同完成从声学信号到文本的转换。 声学特征提取 (Acoustic Feature Extraction): 这是语音识别的第一步。原始的语音信号是连续的模拟波形,直接对其进行处理非常困难。