教程:
一篇深入剖析PCA的好文:(运算过程写的非常详细)
https://www.cnblogs.com/hadoop2015/p/7419087.html
https://www.cnblogs.com/NextNight/p/6180542.html
https://www.cnblogs.com/lliuye/p/9156763.html
主成分分析(PCA):
0.背景
真实的训练数据存在各种各样问题:
1、(冗余) 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。
2、 (相关)拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢?
3、 拿到一个样本,特征非常多,而样例特别少,这样用回归去直接拟合非常困难,容易过度拟合。比如北京的房价:假设房子的特征是(大小、位置、朝向、是否学区房、建造年代、是否二手、层数、所在层数),搞了这么多特征,结果只有不到十个房子的样例。要拟合房子特征->房价的这么多特征,就会造成过度拟合。
4、 这个与第二个有点类似,假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?
5、 (噪音)在信号传输过程中,由于信道不是理想的,信道另一端收到的信号会有噪音扰动,那么怎么滤去这些噪音呢?
在这种情况下,需要一种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。
降维技术作为数据预处理的一部分,即可使用在监督学习中也能够使用在非监督学习中。而降维技术主要有以下几种:主成分分析(Principal Component Analysis,PCA)、因子分析(Factor Analysis),以及独立成分分析(Independent Component Analysis, ICA)。其中主成分分析PCA应用最为广泛。
1.主成分分析(PCA)介绍
1.1 PCA的优化目标
对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达?
- 最大可分性(方差最大):样本点在这个超平面上的投影能尽可能分开。
- 最近重构性(投影误差和最小):样本点到这个超平面的距离都足够近。
投影误差和:所有样本点到投影向量或投影平面的距离的和。
1.2 PCA算法思路
- PCA算法精髓:数据集D乘一个矩阵W,使得m*n的矩阵变成了m*x的矩阵,数据从n维降到了x维。
PCA算法思路:
数据从原来的坐标系转换到新的坐标系,由数据本身决定。转换坐标系时,以方差最大的方向作为坐标轴方向,因为数据的最大方差给出了数据的最重要的信息。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程,重复次数为原始数据的特征维数。
通过这种方式获得的新的坐标系,我们发现,大部分方差都包含在前面

本文介绍了主成分分析(PCA)的基本概念、优化目标和算法思路,包括PCA在解决数据冗余、相关性和降维问题中的应用。通过去除平均值、计算协方差矩阵和特征值,选择前N个特征向量完成数据降维。同时,讨论了PCA的理论基础,如协方差矩阵和特征值与特征向量的关系。提供了PCA算法的伪码,并链接了深入的PCA文章和特征值与特征向量的通俗解释。
最低0.47元/天 解锁文章
6411

被折叠的 条评论
为什么被折叠?



