数据聚类与模型评估方法详解
1. 儿科创伤案例研究
在儿科创伤案例研究中,我们关注两个因素:种族(race)和创伤类型(traumatype)。创伤类型编码了我们感兴趣的实际类别。为了进行后续分析,我们需要创建每个种族类别的虚拟变量:
trauma$black<-ifelse(trauma$race=="black", 1, 0)
trauma$hispanic<-ifelse(trauma$race=="hispanic", 1, 0)
trauma$other<-ifelse(trauma$race=="other", 1, 0)
trauma$white<-ifelse(trauma$race=="white", 1, 0)
接着,为避免对聚类算法产生偏差,我们从数据集中移除创伤类型这个类别变量,模拟一个实际的生物医学案例研究,其中类别是潜在特征:
trauma_notype<-trauma[, -c(1, 5, 6)]
1.1 数据建模
与案例研究 1 类似,我们对数据集进行标准化处理,并拟合一个 k - 均值模型:
tr_z<- as.data.frame(lapply(trauma_notype, scale))
set.seed(1234)
trauma_clusters<-kmeans(tr_z, 6)
这里我们选
超级会员免费看
订阅专栏 解锁全文
843

被折叠的 条评论
为什么被折叠?



