几个疑问
- PCA是干什么的?
首先有一组数据蓝色点,PCA所谓的降维操作就是找到一个新的坐标系(旋转的两条直线式垂直的,我们可以用一组标准正交基来指示),然后减掉其中一些维度,使误差足够小。
- PCA与协方差矩阵的关系
- PCA与SVD的关系
基本思路
假设我们有一个数据 X n ∗ m X_{n*m} Xn∗m,其中n代表了特征的个数,m代表了样本数。首先对 X X X的特征进行零均值化。
协方差矩阵 C n ∗ n = X X T C_{n*n} = XX^T Cn∗n=XXT(这里应该除以m,不妨碍推导),C的对角线代表了特征自身的方差,而其他位置比如 C i , j C_{i,j} Ci,j代表了特征 i i