一种用于将 (或聚类) 个数据点划分为
个不相交子集
的算法,这些子集包含
个数据点,目的是最小化平方和准则
其中 是表示第
个数据点的向量,而
是 几何质心 在
中的数据点的几何质心。一般来说,该算法无法实现
对分配的 全局最小值。事实上,由于该算法使用离散分配而不是一组连续参数,因此它达到的“最小值”甚至不能被恰当地称为局部最小值。尽管存在这些局限性,但由于该算法易于实现,因此仍被相当频繁地使用。
该算法由一个简单的重估计过程组成,如下所示。最初,数据点被随机分配到 个集合。对于步骤 1,计算每个集合的质心。在步骤 2 中,每个点都被分配到其质心最接近该点的簇。这两个步骤交替进行,直到满足停止标准,即数据点的分配不再发生进一步变化时。