3.2 音频数据处理 (特征提取:MFCC, FBank)


文档摘要

3.2 音频数据处理 (特征提取:MFCC, FBank) 3.2 音频数据处理 (特征提取:MFCC, FBank) 在语音识别领域,原始的语音波形数据包含大量冗余信息,且对噪声和说话人差异敏感。为了提高识别系统的鲁棒性和效率,需要将原始语音信号转换为更紧凑、更具判别性的特征向量序列。这个过程称为特征提取。Kaldi主要支持MFCC和FBank这两种广泛使用的特征。 3.2.1 语音信号基础与预处理 在进行MFCC或FBank特征提取之前,原始语音信号通常需要经过一系列预处理步骤。这些步骤旨在标准化语音信号,去除不必要的噪声,并为后续的频谱分析做准备。 预加重 (Pre-emphasis) 目的: 补偿语音信号在高频部分的衰减,增强高频共振峰,从而平衡频谱,提高高频成分的清晰度。


发布者: 作者: 转发
评论区 (0)
U