3.2 词嵌入 (Word Embeddings) 在文本分类与情感分析任务中,将文本数据转化为机器学习模型可理解的数值表示是关键的第一步。在探讨了基础的文本特征表示方法后,我们深入研究一种更为先进且强大的技术:词嵌入(Word Embeddings)。 词嵌入是一种将词语映射到低维、密集向量空间的技术。与传统的基于词频或独热编码(One-Hot Encoding)的方法不同,词嵌入旨在捕获词语之间的语义和语法关系。在词嵌入生成的向量空间中,语义相似的词语在空间中的距离会比较接近,而语义不相关的词语则距离较远。 核心思想与原理 词嵌入的核心思想是“上下文决定词义”。通过分析大量文本数据中词语的共现关系,即一个词语经常和哪些词语一起出现,我们可以学习到词语的分布式表示。