主成分(PCA)降维

主成分分析(PCA)是一种数学变换方法,用于将一组相关变量转化为一组不相关的主成分,减少数据维度同时保留大部分信息。PCA通过计算数据的协方差矩阵,找到最大方差的方向(特征向量),并按方差大小排序。其目的是用较少的变量解释原始数据的主要部分,通常选取贡献率较高的前几个主成分。PCA的应用包括数据降维和重要指标筛选,其中因子载荷的绝对值大小指示了指标对评价结果的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主成分降维:
主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成
另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换
中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二
变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,个变量
就有个主成分。
其中维正交化向量(),之间互不相关且按照方差由大到小排列,
则称的第个主成分。设的协方差矩阵为,则必为半正定对称矩阵,求特
征值(按从大到小排序)及其特征向量,可以证明,所对应的正交化特征向量,
即为第个主成分所对应的系数向量,而的方差贡献率定义为,通常要求
提取的主成分的数量满足

基本思想
PCA的基本原理就是将一个矩阵中的样本数据投影到一个新的空间中去。对于一个矩
阵来说,将其对角化即产生特征根及特征向量的过程,也是将其在标准正交基上投影
的过程,而特征值对应的即为该特征向量方向上的投影长度,因此该方向上携带的原
有数据的信息越多

目的
希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变
量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部
分资料中变量的几个新变量,即所谓主成分,并用以解释资料的综合性指标。

分析步骤
将原始数据按行排列组成矩阵
进行数据标准化,使其均值变为零
的协方差矩阵C
将特征向量按特征值由大到小排列,取前个按行组成矩阵
通过计算,得到降维后数据
用下式计算每个特征根的贡献率;
根据特征根及其特征向量解释主成分物理意义。

基于主成分分析的指标筛选原理
(1)因子载荷的原理
通过对剩余多个指标进行主成分分析,得到每个指标的因子载荷。因子载荷的绝
对值小于等于1,而绝对值越是趋向于1,指标对评价结果越重要。
(2)基于主成分分析的指标筛选原理
因子载荷反映指标对评价结果的影响程度,因子载荷绝对值越大表示
指标对评价结果越重要,越应该保留;反之,越应该删除。1通过对相关性分析
筛选后的指标进行主成分分析,得到每个指标的因子载荷,从而删除因子载荷小
的指标,保证筛选出重要的指标。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值