2.2 相似性度量方法 2.2 相似性度量方法:向量空间中的意义解码器 在向量数据库的宏大图景中,若将“向量表示”比作人类为世界赋予的符号语言——把图像、文本、音频乃至行为序列翻译成高维空间中可计算的坐标点;那么,“相似性度量”便是这套语言的语法与语义引擎。它不负责生成词汇,却决定两个词是否押韵、两句话是否同义、两张面孔是否属于同一人。它不参与编码过程,却在每一次检索、聚类、推荐与异常检测中,悄然裁定“何为相近”、“何为疏离”、“何为意外”。 这不是一个技术细节的堆砌,而是一场关于几何直觉、统计本质与语义对齐的三重思辨。当我们说“向量A与B相似”,我们究竟在说什么?是在说它们在空间中靠得近?方向一致?还是说它们在某种隐含的概率分布下共享相同的生成机制?