主成份分析思想及实际操作

一、主成份的思想

本质就是综合,把多个维度的数据通过线性组合进行综合,从而达到降维的目的。

比如每一个学生6门课程,根据每一课区分学生的优异很复杂,最简单的方式根据总成绩来排名。就是一种暗含主成份分析思想的方式:总成绩就是对6门课程的线性组合,把看6门成绩到看1门成绩就是降维。

一是能更好的区分(个体方差要大,波动要大),二是不能损失(太多)信息(整体方差不改变或者损失很少),在平面上的理解就是旋转,旋转到最能区分个体的方向。

矩阵谱分解完美解决了这个诉求:谱分解就是求矩阵的特征对(特征值=个体方差,特征向量=变换方向)

二、主成份的实际操作

第一步:求样本的相关系数矩阵,EXCEL就能求

第二步:求相关系数的特征对(EXEL有点难,手动太慢,用其他软件吧numpy有现成函数)

第三步:根据特征值从大到小给特征对排序,截取较大的特征值,保证截取的特征值之和比上总体特征值之和不低于一个较高的数值(例如80%,方差损失20%)

截取特征值对应的特征向量就是综合的系数(变量线性组合的向量),于是对有1000个参数的每个个体,可能只需要做3次线性变换(截取较大的3个特征值就能实现第三步中的80%)得出3个指标,那么凭借这3个指标就会很好的区分。

最大特征值对应特征向量的组合是第一主成份

次大特征值对应特征向量的组合是第二主成份

以此类推,理论上如果有1000个维度就有1000个主成份,但我们要降维,否则没有意义。

往往只采用2个主成分得出2个指标,画图比较直观

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值