第十一章 密度估计和 Gauss 混合模型 在前面的章节中,我们已经介绍了机器学习中的两个基本问题:回归(第9章)和降维(第10章)。在本章中,我们将探讨机器学习的第三大支柱:密度估计。在这个过程中,我们将引入一些重要的概念,例如期望最大化(EM)算法,以及从潜在变量的角度看待使用混合模型进行密度估计。 当我们将机器学习应用于数据时,我们通常希望以某种方式表示数据。一种直接的方法是将数据点本身作为数据的表示;图11.1给出了一个示例。然而,如果数据集非常大,或者我们对表示数据的特征感兴趣,那么这种方法可能就不太有用了。在密度估计中,我们使用参数族中的一个密度函数(例如高斯分布或贝塔分布)来紧凑地表示数据。例如,我们可能会寻找数据集的均值和方差,以便使用高斯分布来紧凑地表示数据。