主成分分析与关联规则挖掘:数据降维与关系探索
1. 主成分分析(PCA)入门
在R语言中学习PCA是获取数据知识并减少属性数量的有效途径。我们以 psych 包中的 msq 数据集为例,该数据集包含92个属性,其中72个是3896名参与者对描述情绪的形容词的评分。以下是具体操作步骤:
1. 安装并加载包和数据 :
install.packages("psych")
library(psych)
data(msq)
motiv = msq[,1:72]
2. 处理缺失值
真实数据集中,缺失值是常见问题。在 motiv 数据集中,部分属性的缺失值(NAs)较多,如“anxious”有1849个,“cheerful”有1850个等。为了处理这个问题,我们可以采取以下步骤:
1. 查看各属性的缺失值数量 :
apply(is.na(motiv),2,sum)
- 移除缺失值较多的属性 :
ToSuppress = c(5, 15, 37, 38, 66)
names(motiv[ToSuppress])
移除这些属性
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



