2、数据挖掘中的聚类与分类方法应用

数据挖掘中的聚类与分类方法应用

1. 聚类分析方法概述

聚类分析是探索性数据挖掘中的重要方法,通过计算连接病例所需值之间的距离来估计调查中的子组。常见的聚类方法有层次聚类、K - 均值聚类和基于密度的聚类,它们各有适用场景。

1.1 层次聚类分析

层次聚类适用于预期子组大小不同的情况。以患者的年龄和抑郁评分数据为例,使用 SPSS 19.0 进行分析。
操作步骤如下:
1. 打开数据文件。
2. 依次点击:Analyze….Classify….Hierarchical Cluster Analysis…. 输入变量。
3. 在“Label Case by”中选择值为 1 - 50 的病例变量。
4. 在“Plots”中勾选“Dendrogram”。
5. 在“Method”中,“Cluster Method”选择“Between - group linkage”,“Measure”选择“Squared Euclidean Distance”。
6. 在“Save”中点击“Single solution”,并输入“Number of clusters”为 3。
7. 点击“Continue”和“OK”。

输出结果会给出一个树状图,实际病例间的距离会重新缩放至 0 - 25 单位范围(0 为最小距离,25 为最大距离)。病例 1 - 11、21 - 25 聚为簇 1,病例 12、13、20、26、27、31、32、35、40 聚为簇 2,两者距 0 的重新缩放距离约为 3 单位,其余病例在约 6 单位处聚类。最小化输出时,数据文件会显示每个病例的簇成员身份。之后还可使用 SPSS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值