本文介绍一些常用的算法和如何使用SPSS实现
1.聚类分析
1.概述
聚类分析(cluster analysis)也称群分析、点群分析,是一种无监督学习,与回归分析、多元分析称为多元分析的三大方法。是一个把数据对象划分成子集的过程。每个子集是一个簇(cluster),使得簇中的对象彼此相似,但是与其他簇中的对象不相似。由聚类分析产生的一个簇的集合叫做一个聚类。
2.基本思想:
我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,满足“类内差异小,类间差异大”,这就是分类的基本思想。也就是“物以类聚”的思想。
3.聚类分析的步骤
步骤1:选择聚类分析变量;
这些变量应具备以下特点:
1)和聚类分析的目标相关;
2)反映了要分类对象的特征;
3)在不同对象的值具有明显差异;
4)变量之间不应该高度相关
对于变量高度相关的处理办法(两种):
1)在对案例聚类分析之前,先对变量进行聚类分析,在各类中选择具有代表性的变量作为聚类变量;
2)对变量做因素分析,产生一组不相关变量作为聚类变量。
步骤2:计算相似性
相似性(Similarity)是聚类分析的一