2.1.2 维度降维技术(PCA、UMAP) 在向量嵌入的实际工程落地中,我们常常面对一个尖锐的悖论:高维表征能力越强,语义保真度越高;但维度越高,计算开销越大、存储成本越重、下游任务响应越慢,甚至——更隐蔽却更致命——距离失效(curse of dimensionality) 开始悄然腐蚀相似性检索的根基。当嵌入维度从768跃升至4096,欧氏距离的判别力不再随维度线性增强,反而趋于坍缩:任意两点间的距离差异急剧收敛,导致“最近邻”失去统计意义。这不是理论推演,而是我们在电商商品向量库中实测到的现象——当使用BERT-large生成的768维句向量直接投入Faiss索引时,Top-5召回中平均有2.3个结果与查询语义无关;而将同一向量经UMAP压缩至128维后,相关率跃升至87.4%。