引言
主成分分析是一门降维的技术,即将多个指标用少数几个综合指标表示出来。主成分分析可以用于变量的降维和数据的解释。
本节数据可从多元统计分析上机题之R语言实现(多元正态分布)下载。
主成分分析基本步骤
1.将原始数据标准化,用scale()函数
2.求标准化数据的协方差阵,用cov()函数:或者求数据的相关阵用cor()函数
3.求协方差阵或者相关矩阵的特征值和单位特征向量,用eigen()函数,其中$values是按从达到小对应的特征值,$vectors是对应的单位特征向量
4.主成分分析,用princomp(x,cor...)函数,x为矩阵,cor为确定x是否为相关系数矩阵
5.确定主成分个数,可以用screeplot()函数,用可视化的方法来确定主成分个数,选取一个拐弯点对应的序号
6.解释主成分,用PCA$loadings显示主成分载荷矩阵,PCA为主成分分析赋值的变量。
7.确定各样本的主成分得分,用PCA$scores 来确定,并根据样本各主成分的分值来对样本进行解释。
8.10
data_8.10<-read.table("/home/wangjianlong/files/college/duoyuantongji/JohnsonWichern Data sets/T8-4.DAT")
#(a)
##样本协方差矩阵
cov_x<-cov(data_8.10)
##样本主成分
prin_fac<-princomp(cov_x)
#(b)
lamda<-eigen(cov_x)
##第一主成分占比重
sum(lamda$values[1:3