机器学习实践——利用PCA简化数据

什么是降维?降维的目的又是什么?

现实世界中的数据往往具有多个特征值,但是在众多特征中起到关键作用的往往只是个别特征,或是特征之间存在着依赖的关系,从众多特征中选取较为重要特征的过程就称之为降维

降维的目的就是对输入数据进行削减,由此剔除数据中的噪音并提高机器学习方法的性能。

降维的方法很多,这里介绍应用最为广泛的方法:主成分分析法(PCA)。

在PCA中,数据有原来的坐标系转换到新的坐标系中,第一个新的坐标轴是原始数据中方差最大的方向,第二个坐标轴是次最大方差且与第一个坐标轴正交,该过程一直重复,次数为原始数据中特征的数目。我们会发现大部分方差都包含在最前面的新坐标轴中。因此忽略余下的坐标轴,从而起到降维的效果。

那么,我们如何得到这些包含最大差异性的主成分方向呢(方差最大的方向)?事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值及特征向量,选择特征值最大(也即包含方差最大)的N个特征所对应的特征向量组成的矩阵,我们就可以将数据矩阵转换到新的空间当中,实现数据特征的降维(N维)。

在NumPy中实现PCA

将数据转换成前N个主成分伪代码:

去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值排序
保留前N个最大的特征值对应的特征向量
将数据转换到上面得到的N个特征向量构建的新空间中(实现了特征压缩)

代码部分:

# encoding: utf-8
from numpy import *
import matplotlib.py
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值