第9关:基于主成分分析的综合评价
任务描述
本关任务:读取“农村居民人均可支配收入来源2016.xlsx”数据表,其中数据来源于2016年《中国统计年鉴》,对表中给出的我国内陆31个地区做主成分分析,并基于主成分进行综合排名,输出排名结果。
相关知识
为了完成本关任务,你需要掌握: (1)对原始数据进行标准化处理。 (2)计算样本相关系数矩阵。 (3)求相关系数矩阵的特征值和相应的特征向量。 (4)选择重要的主成分,并写出主成分表达式。 (5)计算主成分得分。 (6)依据主成分得分的数据,进一步从事统计分析。
相关系数矩阵
多个随机变量的方差可以通过其协方差矩阵来考察。由于多个变量的单位不一样,为了消除量纲,通常需要对变量数据做规范化处理,规范化变量数据的协方差矩阵,即是相关系数矩阵。本例的相关系数矩阵计算示例代码如下:
import pandas as pd
Data=pd.read_excel('农村居民人均可支配收入来源2016.xlsx')
X=Data.iloc[:,1:]
R=X.corr()
输出:``
数据规范化处理
对数据集X进行拟合训练,返回规范化后的数据X。 示例如下:
- <