聚类算法的应用与探索
1. K-Means聚类的评估与局限性
在分析不同 k 值的轮廓图时,垂直虚线代表每个簇数量对应的轮廓分数。若一个簇中大部分实例的系数低于该分数(即很多实例未达到虚线,位于虚线左侧),则该簇的效果较差,意味着这些实例与其他簇过于接近。当 k = 3 和 k = 6 时,会得到较差的簇;而当 k = 4 或 k = 5 时,簇的效果较好,多数实例超出虚线,更接近1.0。当 k = 4 时,索引为1的簇(从上往下数第三个)较大;当 k = 5 时,所有簇的大小相似。尽管 k = 4 的整体轮廓分数略高于 k = 5 ,但使用 k = 5 能得到大小相似的簇,是个不错的选择。
K-Means算法虽有快速和可扩展等优点,但也存在不足。为避免次优解,需多次运行该算法,且要指定簇的数量,这较为麻烦。此外,当簇的大小、密度不同或形状非球形时,K-Means的表现不佳。例如,对于包含三个不同维度、密度和方向的椭球簇的数据集,K-Means无法正确聚类。在这种情况下,高斯混合模型表现出色。
在运行K-Means之前,对输入特征进行缩放很重要,否则簇可能会被拉伸,K-Means的性能会变差。虽然缩放特征不能保证所有簇都呈完美的球形,但通常能改善聚类效果。
2. 聚类在图像分割中的应用
图像分割是将图像划分为多个部分的任务。语义分割中,属于同
超级会员免费看
订阅专栏 解锁全文
1238

被折叠的 条评论
为什么被折叠?



