一、主成份的思想
本质就是综合,把多个维度的数据通过线性组合进行综合,从而达到降维的目的。
比如每一个学生6门课程,根据每一课区分学生的优异很复杂,最简单的方式根据总成绩来排名。就是一种暗含主成份分析思想的方式:总成绩就是对6门课程的线性组合,把看6门成绩到看1门成绩就是降维。
一是能更好的区分(个体方差要大,波动要大),二是不能损失(太多)信息(整体方差不改变或者损失很少),在平面上的理解就是旋转,旋转到最能区分个体的方向。
矩阵谱分解完美解决了这个诉求:谱分解就是求矩阵的特征对(特征值=个体方差,特征向量=变换方向)
二、主成份的实际操作
第一步:求样本的相关系数矩阵,EXCEL就能求
第二步:求相关系数的特征对(EXEL有点难,手动太慢,用其他软件吧numpy有现成函数)
第三步:根据特征值从大到小给特征对排序,截取较大的特征值,保证截取的特征值之和比上总体特征值之和不低于一个较高的数值(例如80%,方差损失20%)
截取特征值对应的特征向量就是综合的系数(变量线性组合的向量),于是对有1000个参数的每个个体,可能只需要做3次线性变换(截取较大的3个特征值就能实现第三步中的80%)得出3个指标,那么凭借这3个指标就会很好的区分。
最大特征值对应特征向量的组合是第一主成份
次大特征值对应特征向量的组合是第二主成份
以此类推,理论上如果有1000个维度就有1000个主成份,但我们要降维,否则没有意义。
往往只采用2个主成分得出2个指标,画图比较直观