聚类算法的原理、应用与比较
1. K-Means算法评估与局限性
在使用K-Means算法时,我们可以通过分析轮廓图来确定合适的簇数量 ( k )。轮廓图中的垂直虚线代表每个簇数量对应的轮廓分数。当一个簇中的大多数实例的系数低于该分数(即许多实例未达到虚线,位于虚线左侧),则该簇的质量较差,因为这意味着这些实例与其他簇过于接近。
通过观察发现,当 ( k = 3 ) 和 ( k = 6 ) 时,会得到较差的簇;而当 ( k = 4 ) 或 ( k = 5 ) 时,簇的效果较好,大多数实例延伸到虚线右侧且更接近1.0。当 ( k = 4 ) 时,索引为1(从上往下数第三个)的簇较大;当 ( k = 5 ) 时,所有簇的大小相似。尽管 ( k = 4 ) 时的整体轮廓分数略高于 ( k = 5 ) 的情况,但为了得到大小相似的簇,选择 ( k = 5 ) 是个不错的选择。
K-Means算法虽然具有快速和可扩展的优点,但也存在一些局限性:
- 为了避免得到次优解,需要多次运行该算法。
- 需要手动指定簇的数量,这可能会比较麻烦。
- 当簇的大小、密度不同或形状非球形时,K-Means算法的表现不佳。例如,对于包含三个不同维度、密度和方向的椭圆形簇的数据集,K-Means算法无法正确聚类。
- 在运行K-Means算法之前,对输入特征进行缩放很重要,否则簇可能会被拉伸,导致算法性能下降。虽然缩放特征不能保证所有簇都是理想的球形,但通常会有所改善。
2. 聚类在图像分割中的应用
图像分割是将图像划分为多个部分的任务。语义分割中,属于同一对象类型的所有像素会被分配到同一个部分;实例分割中,属于同一个单独对象
超级会员免费看
订阅专栏 解锁全文
1780

被折叠的 条评论
为什么被折叠?



