2.4 发音词典与音素集 在Kaldi工具包入门与实践背景下,语音识别基础理论的核心在于将人类语音转换为可读文本。其中,2.4 发音词典与音素集是构建这一转换桥梁的基石。它们共同定义了语言的最小发音单位及其组合方式,为声学模型和语言模型之间建立了至关重要的连接。 2.4 发音词典与音素集 在自动语音识别(ASR)系统中,语音信号是连续的模拟波形,而我们最终想要的是离散的文字序列。为了弥合这一鸿沟,我们需要将语音信号分解为更小的、可识别的单元,并将其与词汇关联起来。发音词典和音素集正是完成这一任务的关键组件。 2.4.1 音素集(Phoneme Set) 音素是语言中能够区分词义的最小语音单位。例如,在普通话中,“b”和“p”是不同的音素,因为它们能区分“抱”(bào)和“泡”(pào)。