K-mean算法详解

文档摘要

An efficient K-means clustering algorithm for massive data论文详解关于这一部分，你将收获到K-means算法关于初始聚类点的计算以及优化方式，除此之外还有关于聚类边界的点集划分的计算。核心概念：快速判断一个数据块内的点是否都属于同一个聚类 BWKM算法的核心目标之一是避免对每个数据点都进行K次距离计算（传统Lloyd算法需要）。它通过将数据空间划分为块( )，并利用块的整体几何属性质心信息，快速判断整个块内的点是否可能都属于同一个聚类。如果判断属于同一个聚类，那么该块内所有点都可以被整体分配给该聚类，无需再逐个点计算距离。这大大节省了计算量。定义解析：定义3：误分配函数 (ϵᴄ,ᴅ(B)) 输入: : K个质心的集合。