3.2 语言建模单元


文档摘要

3.2 语言建模单元 3.2 语言建模单元 (Language Modeling Unit) 在构建统计语言模型时,一个核心问题是:我们应该将文本序列分解成什么样的基本单元来进行建模?这些基本单元就是“语言建模单元”。语言模型的目标是计算给定一个序列前缀的情况下,下一个单元出现的概率。因此,选择合适的建模单元对语言模型的性能、复杂度和实用性有着至关重要的影响。 本节将深入探讨在语音识别背景下常用的语言建模单元类型及其各自的特点、优势和劣势。 3.2.1 词 (Words) 最直观和常见的语言建模单元是“词”。一个词通常代表一个具有独立意义或语法功能的语言单位。 特点与优势: 语义清晰: 词是人类语言中意义的基本载体,基于词的语言模型更容易捕获语义和语法结构。


发布者: 作者: 转发
评论区 (0)
U