主成分分析PCA

目录

一、PCA相关概念

1、什么是PCA?

2、特征维度约减的概念与目的

3、主成分分析的主要步骤

二、PCA的简单实现

1、导入库

2、选取一个二维数据

3、查看数据分布情况

4、中心化数据

5、求协方差矩阵

6、求特征值及特征向量

7、对特征值进行从大到小排序并取最大的n个特征值下标

8、最大的n个值对应的特征向量及低维数据的重构

9、输出原数据投影到选取的特征向量的值

三、总结


一、PCA相关概念

1、什么是PCA?

在数据集提供丰富信息的同时,数据之间也存在大量相关性从而会增加问题分析的复杂性。所以需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。

由于各变量之间存在一定的相关关系,因此可以考虑进行特征维度约减,即将关系紧密的变量变成尽可能少的新变量(即降维),使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息,以便找到需要的主成分特征。主成分分析(PCA)与因子分析就属于这类降维算法。

主成分分析(PCA)是一种常用的数据降维方法,可以将高维数据转换为低维空间,同时保留原始数据中最具代表性的信息。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。

2、特征维度约减的概念与目的

特征维度约减——将给定的n个样本(每个样本维度为p维)通过特征变换和映射矩阵高维空间映射到低维子空间

原始数据:X\in R^{p*1}

进行线性变化(与G^{T}\in R^{d*p}求内积)得到约减后的数据:Y\in R^{d}

目的:使机器学习算法在高位空间中表现更具鲁棒性,筛选出有价值的维度(有价值点位有限)

                可视化、高效存储和检索、噪声消除

3、主成分分析的主要步骤

对白数据进行线性拉伸S(得主成分1)和线性旋转R(得主成分2)得出特征向量

3.1求出所有值的均值,然后将所有案例都减去该均值

X-\bar{X}

中心化后均值都为0

3.2求样本的协方差矩阵

原数据的协方差为:

C=\begin{bmatrix} cov(x,x) &cov(x,y) \\ cov(x,y)& cov(y,y) \end{bmatrix}

=\frac{1}{n-1}\begin{bmatrix} x_{1} &x_{2} \\ y_{1}& y_{2} \end{bmatrix}\begin{bmatrix} x_{1} &y_{1} \\ x_{2} & y_{2} \end{bmatrix}=\frac{1}{n-1}DD^{T}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值