K-Means 聚类算法


手动设置起始位置

信息

K-Means 概览

它是如何工作的

肘部方法

它通过从数据集创建簇来工作。这个过程包括根据数据集中的模式将整个数据分成几组。它是一个无监督学习算法,这意味着没有固定的目标变量,因为我们没有要预测的目标。我们需要观察数据,做出观察并创建不同的簇。


寻找最优簇数的一种方法是使用肘部方法。这是在包含簇数(k的值)和数据的折线图上绘制折线图,然后连接这些点。当数值急剧下降时,线条将形成一个肘部形状。


然后形成一个目标数k。这将是你需要的质心数,并将作为代表簇中心的假想位置。然后算法将每个数据点分配给最近的簇,尽量保持质心尽可能小。


当以下情况之一发生时,算法将停止:

步骤

步骤
  1. 选择簇的数量 (k) 使用肘部方法
  2. 从数据中随机选择 k 个点作为质心
  3. 将所有点分配到最近的簇
  4. 重新计算新形成的簇的质心
  5. 重复步骤 3 和 4,直到质心的值稳定并达到定义的迭代次数

为什么使用它

关于 K 均值工作方式的假设

定义

优点 缺点
适用于大型数据集。 手动选择 k 可能需要很长时间。
易于实现。 依赖于初始值,如 k 值。
适应新的例子。 聚类离群值可能导致它们获得自己的簇,而不是被忽略。
概括不同形状和大小的簇。 聚类不同大小和密度的数据可能会导致问题。