3.3 上下文词嵌入(Contextual Embeddings) 3.3 上下文词嵌入(Contextual Embeddings) 在自然语言处理(NLP)的特征工程领域,将文本转化为机器学习模型可理解的数值表示是核心任务之一。传统的词嵌入方法,如Word2Vec、GloVe或FastText,通过学习大量文本数据,为每个词汇生成一个固定维度的向量。这些向量捕捉了词汇的语义和语法关系,例如“国王” - “男人” + “女人” ≈ “王后”。然而,这些静态词嵌入存在一个根本性的局限性:它们为同一个词在任何上下文中都生成相同的向量。 静态词嵌入的局限性 自然语言中存在大量的多义词(Polysemy),即同一个词在不同的句子中可能具有完全不同的含义。例如: “我把钱存到了银行(bank)。