- 文集信息
- 目录大纲
- 最新文档
- 知识宇宙
文集详情
文集导读
语音识别技术基础:声学模型与语言模型 语音识别技术基础:声学模型与语言模型 语音识别 Automatic Speech Recognition, ASR 的核心任务是将人类的语音声学信号转换为对应的文字序列。实现这一过程通常依赖于三个关键组成部分:声学模型 Acoustic Model, AM、语言模型 Language Model, LM 以及解码器 Decoder。本章将深入探讨其中最为基础和核心的两个模块:声学模型和语言模型,阐述它们各自的作用、原理以及如何在 ASR 系统中协同工作。 语音识别系统概览与基本框架 语音识别系统的目标是找到最有可能产生给定声学观测序列 O 的词序列 W。从概率学的角度看,这等价于计算后验概率 P(W|O),并找到使其最大的 W: $\hat{W} = \arg \maxW P(W|O)$ 根据贝叶斯定理,后验概率 P(W|O) 可以通过似然概率 P(O|W) 和先验概率 P(W) 计算得到: $P(W|O) = \frac{P(O|W)P(W)}{P(O)}$ 在搜索最优词序列 W 的过程中,对于同一个声学观测 O,P(O) 是一个常数,因此最大化 P(W|O) 等价于最大化 P(O|W) P(W)。 P(O|W) 是声学模型 AM: 建模给定词序列 W 时,产生对应声学观测序列 O 的概率。它负责将声学信号映射到语音学单位(如音素、状态)。
目录大纲
最新文档
知识宇宙
正在加载知识图谱...