机器学习实战—PCA(主成分分析)
(一)降维技术
1.1降维
1.降维的目标就是对输入的数目进行削减,由此剔除数据中的噪声并提高机器学习方法的性能。
2.降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。
3.降维作用:
1.使得数据集更易使用
2.降低很多算法的计算开销
3.去除噪声
4.使得结果易懂
1.2降维技术
1.主成分分析(Principal Component Analysis,PCA)
在PCA中数据从原来的坐标系转换到新的坐标系,系坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择是和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。
2.因子分析(Factor Analysis)
在因子分析中,我们假设在观察数据的生成中有一些观察不到的隐变量(latent variable)。假设观察数据是这些隐变量和默写噪声的线性组合。那么隐变量的数据可能比观察数据的数目少,也就是说通过找到隐变量就可以实现数据的降维。
3.独立成分分析(Independent Component Analysis,ICA)
ICA假设数据是从N个数据源生成的。假设数据为多个数据源的混合观察结果,这些数据源之间在统计上是相互独立的。