数据降维

数据降维

主成分分析方法(PCA),是数据降维算法。将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,即用较少的综合指标分别代表存在于各个变量中的各类信息,达到数据降维的效果。

所用到的方法就是“映射”:将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。我们要选择的就是让映射后样本间距最大的轴。

其过程分为两步:

  • 样本归0
  • 找到样本点映射后方差最大的单位向量

最后就能转为求目标函数的最优化问题,此时,我们就可以用搜索策略,使用梯度上升法来解决。

PCA法是通过选出使样本方差最大的维度来求主成分的。那么确定了主成分的方向向量后,就需要将高维数据向低维数据映射。方法就是将样本分别点乘每一个主成分向量(数),得到k个数并组成向量。以此类推,完成高维n到低维k的映射。其公式为:

我们在使用sklearn中提高的PCA方法时,需要先初始化实例对象(此时可以传递主成分个数),fit操作得到主成分后进行降维映射操作pca.transform。在初始化实例对象时,也可以传入一个数字,表示主成分所解释的方差比例,即每个主成分对原始数据方差的重要程度。忽略对原始方差影响小的成分,在时间和准确度之间做一个权衡。

数据降维之应用:降噪&人脸识别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值