聚类算法介绍

文档摘要

关于两种聚类算法 K-Means k-means是一种基于划分的聚类算法，主要思想是把数据划分到k个簇，每个簇都有中心点。该算法速度快，形成的簇近似于球形，适合于大量的、简单的、规则的数据集。用户选择簇的数量随机选择K个点作为中心点将每个样本分配到距离最近的质心所在的簇对每个簇重新计算所有成员的平均值作为新的质心重复步骤3和4，直到质心不在变化或者到达最大的迭代次数原理： k-means 的核心思想是，把数据分成 k 个群组（也叫簇），每个群组都有一个“中心点”（也叫质心），目标是让每个点都尽可能靠近自己群组的中心点。简单来说，就是“物以类聚，人以群分”。步骤：选中心：先随机选 k 个点，把它们当成初始的中心点。分堆：把每个数据点都分到离它最近的中心点所在的群组。