【模式识别】学习笔记(1)>>>【聚类分析】

深入探讨聚类分析与K均值算法

最新推荐文章于 2025-09-05 11:17:42 发布

weixin_34151004

最新推荐文章于 2025-09-05 11:17:42 发布

阅读量238

点赞数

CC 4.0 BY-SA版权

文章标签：数据结构与算法

原文链接：https://my.oschina.net/Parser/blog/380588

本文深入解析了聚类分析的基础概念，包括相似性测度、聚类准则及其演进过程。着重讨论了K均值算法的原理、性能及实际应用，包括简单试探法与ISODATA算法的对比分析。

为什么80%的码农都做不了架构师？>>>

聚类分析

相似性测度：

欧氏距离（多用）、马氏距离、明氏距离、角度相似性。

聚类准则：

进而还需要一种基于数值的聚类准则，能将相似的模式样本分在同一类，这就是聚类准则：试探法、聚类准则函数法。

试探法：

凭直观感觉或经验确定相似性阈值。

聚类准则函数法：

将样本进行分类以使类别间可分离性为最大，反映类别间相似性或分离性的函数；使聚类分析转化为寻找准则函数极值的最优化问题。如图求解欧氏距离和极值即可得准则函数：

试探法：

简单试探法：在实际中，对于高维模式样本很难获得准确的先验知识，因此只能选用不同的阈值和起始点来试探，所以这种方法在很大程度上依赖于以下因素：
第一个聚类中心的位置，不同首个聚类中心导致最终的聚类结果不同。
待分类模式样本的排列次序，x1和x2的中心与x1和x3的中心是不一样的
距离阈值T的大小
样本分布的几何性质
最大最小距离算法：

较简单试探法改进的方法，详细步骤见：第二章（最大最小距离算法）.doc

聚类准则函数法

系统聚类法： 类别由多到少，直到获得合适的分类要求为止。有最大、最小、均值等不同距离准则为辅助。

动态聚类算法：

基本思想--

1)首先选择若干个样本点作为聚类中心，再按某种聚类准则（通常采用最小距离准则）使样本点向各中心聚集，从而得到初始聚类;

2)然后判断初始分类是否合理，若不合理，则修改分类;

3)如此反复进行修改聚类的迭代算法，直至合理为止。

此类算法有：K-Mean、ISODATA

K-均值算法：

原理：

预定K个x为K类的均值中心，遍历所有样本以距离为依据归到K类中，重新计算每类的均值中心直到都不变为止，改变的话以新的均值作为中心重新归类。

性能：

因此，性能受所选聚类的数目、聚类中心的初始分布(影响收敛速度)、模式样本的空间几何分布等性质、读入次序等因素影响。

实际运用：

1)在实际应用中，需要试探不同的K值和选择不同的聚类中心的起始值。
2)如果模式样本可以形成若干个相距较远的孤立的区域分布，一般都能得到较好的收敛效果。
3)K-均值算法比较适合于分类数目已知的情况。

ISODATA算法：

原理：

与K-均值算法相似，聚类中心都是通过样本均值的迭代运算来决定的。

不同的是，ISODATA算法加入了一些试探步骤，并且可以结合成人机交互的结构，使其能利用中间结果所取得的经验更好地进行分类。
步骤和思路：
（1）选择某些初始值。可选不同的参数指标，也可在迭代过程中人为修改，以将N个模式样本按指标分配到各个聚类中心中去。
（2）计算各类中诸样本的距离指标函数。
（3）~（5）按给定的要求，将前一次获得的聚类集进行分裂和合并处理（（4）为分裂处理，（5）为合并处理），从而获得新的聚类中心。
（6）重新进行迭代运算，计算各项指标，判断聚类结果是否符合要求。经过多次迭代后，若结果收敛，则运算结束。

【此处应有ISODATA流程图】
具体算法实现还远不止步骤这么轻描淡写!

转载于:https://my.oschina.net/Parser/blog/380588

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。