2.2 文本切分(Tokenization)


文档摘要

2.2 文本切分(Tokenization) 2.2 文本切分(Tokenization) 在自然语言处理(NLP)的流程中,原始文本数据通常是以长字符串的形式存在。为了能够让计算机理解和处理这些文本,我们需要将其分解成更小的、有意义的单元。这个过程就是文本切分,也称为 Tokenization。Tokenization 是文本预处理流程中的第一个关键步骤,它将连续的文本字符串转换成一个离散的单元序列,这些单元被称为“标记”(Tokens)。 2.2.1 定义与重要性 定义: 文本切分是将一段文本分解为一系列标记(tokens)的过程。这些标记可以是词语、子词、字符,甚至是标点符号或数字。选择何种粒度的标记取决于具体的任务和语言特性。


发布者: 作者: 转发
评论区 (0)
U