数据清洗过程中的特征选择----主成分分析

主成分分析(PCA)是一种用于降维的技术,通过找到数据在正交基上的最大方差投影来实现。PCA的核心在于计算数据的协方差矩阵并找出其特征值和特征向量,特征值较大的特征向量即为主成分,可用于数据表示,而小特征值对应的特征向量则可被忽略,从而达到数据降维的目的。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主成分分析: Principal Component Analysis (PCA)

PCA的本质就是找一些相互正交的投影方向的方差。计算原始数据在这些正交基上投影的方差越大,则说明在对应正交基上的信息量越多。
原始数据协方差矩阵的特征值越大,对应的方差越大,在对应的特征向量上投影的信息量就越大,就是主成分。

特征值小,说明数据在这些特征向量上投影的信息量很小,则这数据在总体中的影响很小,可以将小特征值对应方向的数据删除,从而达到了降维的目的。
所以,主成分分析主要是为了寻找总体中,占比例比较少的成分,删除。达到降维和数据清洗的目的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值