数据挖掘中的聚类与分类方法应用
1. 聚类分析方法概述
聚类分析是探索性数据挖掘中的重要方法,通过计算连接病例所需值之间的距离来估计调查中的子组。常见的聚类方法有层次聚类、K - 均值聚类和基于密度的聚类,它们各有适用场景。
1.1 层次聚类分析
层次聚类适用于预期子组大小不同的情况。以患者的年龄和抑郁评分数据为例,使用 SPSS 19.0 进行分析。
操作步骤如下:
1. 打开数据文件。
2. 依次点击:Analyze….Classify….Hierarchical Cluster Analysis…. 输入变量。
3. 在“Label Case by”中选择值为 1 - 50 的病例变量。
4. 在“Plots”中勾选“Dendrogram”。
5. 在“Method”中,“Cluster Method”选择“Between - group linkage”,“Measure”选择“Squared Euclidean Distance”。
6. 在“Save”中点击“Single solution”,并输入“Number of clusters”为 3。
7. 点击“Continue”和“OK”。
输出结果会给出一个树状图,实际病例间的距离会重新缩放至 0 - 25 单位范围(0 为最小距离,25 为最大距离)。病例 1 - 11、21 - 25 聚为簇 1,病例 12、13、20、26、27、31、32、35、40 聚为簇 2,两者距 0 的重新缩放距离约为 3 单位,其余病例在约 6 单位处聚类。最小化输出时,数据文件会显示每个病例的簇成员身份。之后还可使用 SPSS
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



