假设输入数据为矩阵X(n*p,n个样本p维特征),使用MATLAB自带函数pca进行降维时需注意:
(1)n为observation,p为variables;
(2)pca函数使用文档中有一段说明如下,
[coeff,score,latent] = pca(___),其中coeff是p*p的矩阵(协方差矩阵特征向量构成的,
也是变换矩阵), score是变换后的主成分。
若n小于p,计算出的coeff将不再是p*p,这一结果的解释:
PCA in matlab selecting top n componentsstackoverflow.com
自己计算主成分的话,包括几个步骤:(1)去均值(各维度均值而不是每个样本单独计算均值);(2)计算协方差矩阵;(3)计算协方差矩阵的特征值和特征向量;(4)特征向量按特征值由大到小进行排序构成变换矩阵;(5)通过变换矩阵与去均值后的数据得到变换后的主成分。
参考代码:
设x为n*m矩阵,n为特征维数,m为样本数
avg=mean(x,2); % 去均值(特征各维度相应均值)
x = x - repmat(avg, 1,m);
sigma = x * x' / m;
[U,S,V] = svd(sigma); % U是协方差矩阵的特征向量按特征值从大到小排序得到的
x_reduce= U(:, 1:k)'*x; % k是主成分
PCA参考资料:
http://blog.youkuaiyun.com/watkinsong/article/details/38536463?utm_source=tuicool&utm_medium=referralblog.youkuaiyun.comPCA - Ufldldeeplearning.stanford.edu(对图像灰度去均值时单个patch进行的,与上面步骤(1)有出入,但是对像素来说这样也有一定的道理)
http://blog.youkuaiyun.com/richard2357/article/details/18145631blog.youkuaiyun.com