机器学习 | PCA

一.基本原理

是一种分析简化数据集的技术

PCA从原始变量出发,通过旋转变化(即原始变量的线性组合)构建出一组新的,互不相关的新变量,这些变量尽可能多的解释原始数据之间的差异性(即数据内在的结构),它们就称为原始数据的主成分。由于这些变量不相关,因此他们无重叠的各自解释一部分差异性。依照每个变量解释的差异性大小排序,它们称为第一主成分,第二主成分,以此类推

PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到将为的目的

工作原理可以由两个角度解释

  • 最大化投影方差(让数据在主轴上投影的方差尽可能大)
  • 最小化平方误差(样本点到超平面的垂直距离足够近)

做法是:数据中心化之后,对样本数据协方差矩阵进行特征分解,选取前d个最大的特征值对应的特征向量,即可将数据从原来的p维降到d维,也可根据奇异值分解来求解主成分

二.优缺点

优点

  • 降低数据的复杂型,识别最重要的多个特征
  • 使得数据集更易使用
  • 降低算法的计算开销
  • 去除噪声
  • 使得结果更容易理解
  • 仅仅需要方差衡量信息量,不受数据集以外的因素影响
  • 各主成分之间正交,可以消除原始数据成分间的相互影响的因素
  • 计算方法简单,主要运算是特征值分解,易于实现

缺点

  • 不一定需要,且可能损失有用信息
  • 主成分各特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强
  • 方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响
  • PCA原理主要是为了消除变量之间的相关性,并且假设这种相关性是线性的,对于非线性的依赖关系则不能得到很好的结果
  • PCA假设变量服从高斯分布,当变量不服从高斯分布(如均匀分布)时,会发生尺度缩放与旋转
  • 对降维最终得到的数目,也就是潜在的隐变量的数目,不能很好地估计
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值