主成分分析PCA

主成分分析(PCA)是一种常用的降维方法,通过正交变换将可能存在相关性的变量转换为线性不相关的变量,即主成分。本文介绍了PCA的目的、操作步骤及原理推导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主成分分析(PrincipalComponent Analysis)

定义:

         通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫做主成分。

 

目的:

         减小需要分析的指标同时尽量减少原指标包含的信息损失。是最常用的降维方法。

 

主成分:

         加入有一些数据分布在三维空间中一个二维平面上,用自然坐标系x,y,z表示需要三个维度。如果将原坐标系旋转为x’,y’,z’使x’y’平面与二维平面重合,则数据表示只有两个维度了。加入数据在z’轴有很小的抖动,则认为这噪声可能是噪声,本来数据是有相关性的,噪声使得数据不完全相关,数据在z’轴上有很大相关性,可以认为数据在x’y’平面的投影已足够表示数据信息,构成了数据的主成分。PCA是将n维特征映射到k维,这k维是全新的正交特征,称为主成分。

         在PCA之前,要先对数据中心化,即均值为0,个人认为这是为了方便表示,让所有数据构成的以原点为起点的向量组可以用两个不相关的正交向量表示。

 

操作方法:

         1、数据中心化

         2、求特征协方差矩阵

         3、求协方差矩阵的特性值和特征向量

         4、将特征值从大到小的顺序排列,选择其中最大的k个,然后将对应的k个特征向量分别做列向量组成特征向量矩阵

         5、将样本点投影到特征向量上

 

推导:

         假设xi是中心化后数据,PCA即使数据在第一主轴u1分布最开,因为数据均值为0,所以投影的绝对值和最大即方差最大。

         设原始的都为列向量,u1取单位向量。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值