6.1 声学模型自适应 (i-vector, fMLLR) 6.1 声学模型自适应 (i-vector, fMLLR) 在自动语音识别 (ASR) 系统中,声学模型的性能往往受到多种因素的影响,其中最主要的挑战之一是训练数据与实际测试数据之间的不匹配。这种不匹配可能源于说话人特性的差异(如口音、语速、音量、生理结构)、录音环境的变化(如背景噪音、混响)、麦克风类型的不同以及信道的失真等。为了克服这些挑战,提高ASR系统的鲁棒性和识别准确率,声学模型自适应技术应运而生。 本章将深入探讨Kaldi工具包中两种核心的声学模型自适应技术:特征空间最大似然线性回归 (fMLLR) 和身份向量 (i-vector)。