聚类分析
相似性测度:
欧氏距离(多用)、马氏距离、明氏距离、角度相似性。
聚类准则:
进而还需要一种基于数值的聚类准则,能将相似的模式样本分在同一类,这就是聚类准则:试探法、聚类准则函数法。
试探法:
凭直观感觉或经验确定相似性阈值。
聚类准则函数法:
将样本进行分类以使类别间可分离性为最大,反映类别间相似性或分离性的函数;使聚类分析转化为寻找准则函数极值的最优化问题。如图求解欧氏距离和极值即可得准则函数:
试探法:
简单试探法:在实际中,对于高维模式样本很难获得准确的先验知识,因此只能选用不同的阈值和起始点来试探,所以这种方法在很大程度上依赖于以下因素:
第一个聚类中心的位置,不同首个聚类中心导致最终的聚类结果不同。
待分类模式样本的排列次序,x1和x2的中心与x1和x3的中心是不一样的
距离阈值T的大小
样本分布的几何性质
最大最小距离算法:
较简单试探法改进的方法,详细步骤见:第二章(最大最小距离算法).doc
聚类准则函数法
系统聚类法: 类别由多到少,直到获得合适的分类要求为止。有最大、最小、均值等不同距离准则为辅助。
动态聚类算法:
基本思想--
1)首先选择若干个样本点作为聚类中心,再按某种聚类准则(通常采用最小距离准则)使样本点向各中心聚集,从而得到初始聚类;
2)然后判断初始分类是否合理,若不合理,则修改分类;
3)如此反复进行修改聚类的迭代算法,直至合理为止。
此类算法有:K-Mean、ISODATA
K-均值算法:
原理:
预定K个x为K类的均值中心,遍历所有样本以距离为依据归到K类中,重新计算每类的均值中心直到都不变为止,改变的话以新的均值作为中心重新归类。
性能:
因此,性能受所选聚类的数目、聚类中心的初始分布(影响收敛速度)、模式样本的空间几何分布等性质、读入次序等因素影响。
实际运用:
1)在实际应用中,需要试探不同的K值和选择不同的聚类中心的起始值。
2)如果模式样本可以形成若干个相距较远的孤立的区域分布,一般都能得到较好的收敛效果。
3)K-均值算法比较适合于分类数目已知的情况。
ISODATA算法:
原理:
与K-均值算法相似,聚类中心都是通过样本均值的迭代运算来决定的。
不同的是,ISODATA算法加入了一些试探步骤,并且可以结合成人机交互的结构,使其能利用中间结果所取得的经验更好地进行分类。
步骤和思路:
(1) 选择某些初始值。可选不同的参数指标,也可在迭代过程中人为修改,以将N个模式样本按指标分配到各个聚类中心中去。
(2) 计算各类中诸样本的距离指标函数。
(3)~(5)按给定的要求,将前一次获得的聚类集进行分裂和合并处理((4)为分裂处理,(5)为合并处理),从而获得新的聚类中心。
(6) 重新进行迭代运算,计算各项指标,判断聚类结果是否符合要求。经过多次迭代后,若结果收敛,则运算结束。
【此处应有ISODATA流程图】
具体算法实现还远不止步骤这么轻描淡写!