5.1.2 其他度量:Dice, Cosine, Euclidean 距离 在相似性测度的工程实践中,我们常陷入一种隐秘的认知陷阱:把“距离”或“相似度”当作一个现成的黑箱函数——调用 ,传入两个向量,得到一个浮点数,然后就去调阈值、画ROC曲线、上模型。但真正的技术纵深,恰恰藏在那个被跳过的“为什么这样算”和“换种写法会怎样”里。5.1.2节所列的Dice、Cosine与Euclidean距离,表面看只是三个公式,实则是一组数据几何观的三棱镜:它们分别将向量空间投射到交集主导的集合世界、方向主导的单位球面、以及坐标轴正交支配的欧氏平原。理解它们,不是为了背诵公式,而是为了在面对稀疏文本、高维嵌入、类别不平衡标签、或嵌入层梯度异常时,能立刻判断:“这里该用哪个度量?