数据降维方法
降维方法 | 线性or非线性 | 监督方式 |
---|---|---|
主成分分析(Principal Component Analysis,PCA ) | 线性 | 无监督 |
MDS | 线性 | 无监督 |
LDA | 线性 | 有监督 |
等距离映射(isometric mapping,ISOMAP) | 非线性 | |
局部线性嵌入(Local Linear Embedding,LLE) | 非线性 |
PCA主要思想和原理
样本XXX和样本YYY的协方差:
Cov(X,Y)=∑i=1n(Xi−Xˉ)(Yi−Yˉ)n−1Cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}Cov(X,Y)=n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ)
对于一批nnn维的数据,其协方差矩阵为:
Cov=[cov(x,x)cov(x,y)cov(x,z)cov(y,x)cov(y,y)cov(y,z)cov(z,x)cov(z,y)cov(z,z)]Cov=\left[\begin{array}{ccc}
cov(x,x)&cov(x,y)&cov(x,z)\\
cov(y,x)&cov(y,y)&cov(y,z)\\
cov(z,x)&cov(z,y)&cov(z,z)
\end{array}\right]Cov=⎣⎡cov(x,x)cov(y,x)cov(z,x)cov(x,y)cov(y,y)cov(z,y)cov(x,z)cov(y,z)cov(z,z)⎦⎤
若AX=λXAX=\lambda XAX=λX,则称λ\lambdaλ是AAA的特征值,XXX是对应的特征向量。实际上可以这样理解:矩阵AAA作用在它的特征向量XXX上,仅仅使得XXX的长度发生了变化,缩放比例就是相应的特征值λ\lambdaλ。
当AAA是nnn阶可逆矩阵时,AAA与P−1APP^{-1}APP−1AP相似,相似矩阵具有相同的特征值。
特别地,当AAA是对称矩阵时,AAA的奇异值等于AAA的特征值,存在正交矩阵QQQ(Q−1=QTQ^{-1}=Q^TQ−1=QT)使得:
QTAQ=[λ1λ2λ3]Q^TAQ=\left[\begin{array}{ccc}
\lambda_1&&\\
&\lambda_2&\\
&&\lambda_3\\
\end{array}\right]QTAQ=⎣⎡λ1λ2λ3⎦⎤
对A进行奇异值分解就能求出所有特征值和Q矩阵。
A∗Q=Q∗D,D是由特征值组成的对角矩阵
由特征值和特征向量的定义知,Q的列向量就是A的特征向量。