聚类分析:K-means与层次聚类的应用与实践
1. 使用K-means处理公共数据集
首先,我们将使用 cluster.datasets 包中的数据集来深入学习K-means分区聚类。这个包包含了Hartigan(1975)在《Clustering algorithms》一书中发布的数据集及分析示例。以下是安装和加载数据集的步骤:
install.packages("cluster.datasets")
library(cluster.datasets)
1.1 探索 all.us.city.crime.1970 数据集
我们将聚焦于了解数据、将数据缩放到通用度量标准以及聚类的可解释性。以1970年美国不同城市的犯罪率数据集 all.us.city.crime.1970 为例,具体操作如下:
data(all.us.city.crime.1970)
crime = all.us.city.crime.1970
接着,我们来查看数据集的属性:
ncol(crime)
names(crime)
summary(crime)
该数据集有10个属性,通过查看R手册(输入 ?all.us.city.crime.1970 )可以了解这些变量的含义。从描述性统计数据
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



