目录
1.4.1主成分分析(PrincipalComponentAnalysis,PCA)
1.4.3独立成分分析(Independent Component Analysis, ICA)
一、算法概述
1.1什么是降维
降维的概念:
①降维(Dimensionality Reduction,DR)是指采用线性或者非线性的映射方法将高维空间的样本映射到低维空间中。
②降维获得低维空间的数据等价表示,实现高维数据的可视化呈现。
1.2为什么要降维
降维的作用:
①在原始的高维空间中,包含有冗余信息以及噪声信息。图像识别中如果噪声太多会造成误差降低识别准确率;通过降维,可以减少冗余信息所造成的误差,提高识别的精度、降低算法开
销。
②通过降维可以寻找数据内部的本质结构特征。
③降维可以得到原始数据的简化表示以加速后续处理或者改进输出结果,即降维可以得到原始数据的简化表示以加速后续处理或者改进输出结果,因此它已经成为很多算法数据进行预处理的重要手段。
1.3降维实现原理
在降维过程中,会减少特征的数量,这意味着删除数据,数据量变少则表示模型可以获取的信息会变少,模型的表现可能会因此受影响。同时,在高维数据中,必然有一些特征是不带有效的信息的(比如噪音),或者有一些特征带有的信息和其他一些特征是重复的(比如一些特征可能会线性相关)。
我们希望能够找出一种办法来帮助我们衡量特征上所带的信息量,让我们在降维的过程中,能够既减少特征的数量,又保留大部分有效信息——将那些带有重复信息的特征合并,并删除那些带无效信息的特征等等——逐渐创造出能够代表原特征矩阵大部分信息的,特征更少的,新特征矩阵。
1.4降维的方法
1.4.1主成分分析(PrincipalComponentAnalysis,PCA)
1.4.2因子分析(Factor Analysis)
因子分析是一种统计方法,用于揭示观察变量之间的潜在结构或模式。其基本思想是,观察变量可以通过较少数量的未观察的变量,称为因子,来解释或表示。这些因子是隐含在观察变量背后的共性因素,能够帮助理解数据中的相关性和变量之间的复杂关系。
1.4.3独立成分分析(Independent Component Analysis, ICA)
独立成分分析是一种信号处理和统计方法,旨在从多个随机变量的混合中分离出独立的非高斯信号成分。其核心思想是,将混合信号分解为几个相互独立的信号源,这些信号源具有最大的互信息(相互信息量)。
二、主成分分析法(PCA)
2.1主成分分析(PCA)基本思路
-通过协方差分析,建立高维空间到低维空间的线性映射/矩阵
-保留尽可能多的样本信息
-压缩后的数据对分类、聚类尽量不产生影响,甚至有所提升
2.2PCA算法的实现步骤
①将原始数据按行组成m行n列的矩阵X,将X的每一列(代表一个属性字段)进行零均值化,即减去 这一列的均值;
③求出协方差矩阵;
④求出协方差矩阵的特征值及对应的特征向量r;
⑤将特征向量按对应特征值大小从左到右按列排列成矩阵,取前k列组成矩阵P⑥计算降维到k维的数据。
2.3协方差矩阵
方差描述一个数据的