2.5 深度学习声学模型 2.5 深度学习声学模型 在语音识别的发展历程中,声学模型经历了从模板匹配到统计建模(如高斯混合模型-隐马尔可夫模型,GMM-HMM)的演变。进入21世纪第二个十年,随着计算能力的飞速发展和海量数据的可用性,深度学习技术在声学建模领域取得了突破性进展,并迅速成为主流方法。深度学习声学模型的核心思想是利用深度神经网络强大的非线性建模能力和特征学习能力,替代传统GMM在HMM框架中估计声学特征的概率分布。 2.5.1 深度学习为何适用于声学建模? 传统的GMM-HMM模型存在一些固有的局限性: 特征表示局限: GMM通常依赖于人工设计的声学特征(如MFCC、PLP等)。这些特征可能无法完全捕捉语音信号中与语音内容相关的复杂信息,且对噪声和说话人变异不够鲁棒。