目录
一、PCA相关概念
1、什么是PCA?
在数据集提供丰富信息的同时,数据之间也存在大量相关性从而会增加问题分析的复杂性。所以需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
由于各变量之间存在一定的相关关系,因此可以考虑进行特征维度约减,即将关系紧密的变量变成尽可能少的新变量(即降维),使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息,以便找到需要的主成分特征。主成分分析(PCA)与因子分析就属于这类降维算法。
主成分分析(PCA)是一种常用的数据降维方法,可以将高维数据转换为低维空间,同时保留原始数据中最具代表性的信息。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
2、特征维度约减的概念与目的
特征维度约减——将给定的n个样本(每个样本维度为p维)通过特征变换和映射矩阵高维空间映射到低维子空间
原始数据:
进行线性变化(与求内积)得到约减后的数据:
目的:使机器学习算法在高位空间中表现更具鲁棒性,筛选出有价值的维度(有价值点位有限)
可视化、高效存储和检索、噪声消除
3、主成分分析的主要步骤
对白数据进行线性拉伸S(得主成分1)和线性旋转R(得主成分2)得出特征向量
3.1求出所有值的均值,然后将所有案例都减去该均值
中心化后均值都为0
3.2求样本的协方差矩阵
原数据的协方差为: