它通过从数据集创建簇来工作。这个过程包括根据数据集中的模式将整个数据分成几组。它是一个无监督学习算法,这意味着没有固定的目标变量,因为我们没有要预测的目标。我们需要观察数据,做出观察并创建不同的簇。
寻找最优簇数的一种方法是使用肘部方法。这是在包含簇数(k的值)和数据的折线图上绘制折线图,然后连接这些点。当数值急剧下降时,线条将形成一个肘部形状。
然后形成一个目标数k。这将是你需要的质心数,并将作为代表簇中心的假想位置。然后算法将每个数据点分配给最近的簇,尽量保持质心尽可能小。
优点 | 缺点 |
---|---|
适用于大型数据集。 | 手动选择 k 可能需要很长时间。 |
易于实现。 | 依赖于初始值,如 k 值。 |
适应新的例子。 | 聚类离群值可能导致它们获得自己的簇,而不是被忽略。 |
概括不同形状和大小的簇。 | 聚类不同大小和密度的数据可能会导致问题。 |