K-Means 聚类算法

一种用于将 (或聚类) 个数据点划分为个不相交子集的算法，这些子集包含个数据点，目的是最小化平方和准则

其中是表示第个数据点的向量，而是几何质心在中的数据点的几何质心。一般来说，该算法无法实现对分配的全局最小值。事实上，由于该算法使用离散分配而不是一组连续参数，因此它达到的“最小值”甚至不能被恰当地称为局部最小值。尽管存在这些局限性，但由于该算法易于实现，因此仍被相当频繁地使用。

该算法由一个简单的重估计过程组成，如下所示。最初，数据点被随机分配到个集合。对于步骤 1，计算每个集合的质心。在步骤 2 中，每个点都被分配到其质心最接近该点的簇。这两个步骤交替进行，直到满足停止标准，即数据点的分配不再发生进一步变化时。

另请参阅