3.2 词嵌入(Word Embeddings) 第三章:特征工程 3.2 词嵌入(Word Embeddings) 在自然语言处理(NLP)的基础阶段,将文本数据转换为机器学习模型能够理解和处理的数值表示是至关重要的一步,这便是特征工程的核心任务之一。在传统的文本表示方法(如词袋模型 Bag-of-Words, BoW 或 TF-IDF)中,词语通常被视为独立的个体,忽略了词语之间的语义和句法关系,且产生的特征向量维度高且稀疏。词嵌入(Word Embeddings)作为一种现代的特征工程技术,旨在克服这些局限性,将词语映射到低维、稠密的实数向量空间中,同时捕获词语之间的潜在关系。 3.2.1 引言:为什么需要词嵌入?