N (节点数):

K (簇数):

在中心附近绘制:

手动设置起始位置

信息

K-Means 概览

K-Means 是最简单且强大的无监督机器学习聚类算法之一。
它用于发现数据集中的相似性和关系，并创建簇。

它是如何工作的

肘部方法

它通过从数据集创建簇来工作。这个过程包括根据数据集中的模式将整个数据分成几组。它是一个无监督学习算法，这意味着没有固定的目标变量，因为我们没有要预测的目标。我们需要观察数据，做出观察并创建不同的簇。

寻找最优簇数的一种方法是使用肘部方法。这是在包含簇数（k的值）和数据的折线图上绘制折线图，然后连接这些点。当数值急剧下降时，线条将形成一个肘部形状。

然后形成一个目标数k。这将是你需要的质心数，并将作为代表簇中心的假想位置。然后算法将每个数据点分配给最近的簇，尽量保持质心尽可能小。

当以下情况之一发生时，算法将停止：

质心稳定，即由于成功的聚类而没有值变化。
已达到声明的迭代次数。

步骤

选择簇的数量 (k) 使用肘部方法
从数据中随机选择 k 个点作为质心
将所有点分配到最近的簇
重新计算新形成的簇的质心
重复步骤 3 和 4，直到质心的值稳定并达到定义的迭代次数

为什么使用它

客户细分 – 帮助根据共同特征将客户分成组
文档聚类 – 会根据相似性将文档分组
图像分割 – 会将具有相似像素的图像聚类
推荐引擎 – 根据喜好做出推荐，例如歌曲

关于 K 均值工作方式的假设

簇呈球形有助于在分析数据和形成簇时分离簇。
簇的大小相似有助于确定簇的边界，并有助于计算数据点的数量。

定义

K 值： 数据集中需要的质心数量。
肘部方法： 用于确定数据集中簇数量的启发式方法。
聚类： 因为它们具有相似性而聚集在一起的数据点的集合。
质心： 代表簇中心的位置。

优点	缺点
适用于大型数据集。	手动选择 k 可能需要很长时间。
易于实现。	依赖于初始值，如 k 值。
适应新的例子。	聚类离群值可能导致它们获得自己的簇，而不是被忽略。
概括不同形状和大小的簇。	聚类不同大小和密度的数据可能会导致问题。