1.1 语音识别概述 1.1 语音识别概述 语音识别(Automatic Speech Recognition, ASR),又称自动语音识别或语音转文本(Speech-to-Text),是一门交叉学科,其目标是使机器能够“理解”人类的口语。它将人类的语音信号转化为机器可读的文本格式,是人机交互领域的一个重要组成部分。语音识别技术的发展历程漫长且充满挑战,从早期的基于规则和统计模型的方法,到近年来深度学习技术的广泛应用,其准确性和鲁棒性都取得了显著的进步。 1.1.1 语音识别的定义与目标 定义: 语音识别是指通过计算机将人类语音中的词汇内容转换成书面文本的技术。它涉及信号处理、模式识别、机器学习、语言学等多个领域的知识。 目标: 准确性: 尽可能高地将语音内容转换为正确的文本。