第4章:流形假设——高维数据的隐秩序 你以为数据是随机散布在高维空间的。它不是。它挤在一个薄薄的曲面上。 一、维度的荒谬 先做一个思想实验。 在一条线段上,随机撒 100 个点。平均而言,相邻两点之间的距离大约是线段长度的 1/100——密度很高,采样充分。 现在把这 100 个点放进一个正方形里。为了保持同样的采样密度,你需要 $100^2 = 10000$ 个点。 放进一个正方体呢?需要 $100^3 = 1000000$ 个点。 这就是维度诅咒(Curse of Dimensionality)——Bellman 在 1957 年命名这个现象时,大概没想到它会成为整个机器学习领域的幽灵。 维度诅咒说的是:当数据的维度增加时,覆盖同等密度的空间需要指数级增长的样本量。