文章目录
参考资料
知乎https://zhuanlan.zhihu.com/p/37777074虽然感觉它有些错误。。
https://www.bilibili.com/video/av28790123?from=search&seid=17981130295757951329
数据矩阵
设X是数据矩阵,Xn×p=[X1,X2,……Xp]
- 列向量表示p个特征
- 行向量表示n个样本
Xi·表示矩阵第i行→第i个样本的数据,i从1到n
X·j表示矩阵第j列→第j个特征的数据,j从1到p
我们下面考虑的都是列向量(特征)
目的
主成分分析(Principal Component Analysis,PCA)通过正交变换将一组可能存在相关性的变量
转换为一组线性不相关的变量,转换后的这组变量叫主成分。
本质目的也就是把p个(标准化后的)特征向量 通过坐标轴旋转,变为线性不相关
预备知识
线性代数
AB=C,C的列向量是A的列向量的线性组合
C的行向量是B的行向量的线性组合
坐标旋转
❀把每列 Xj 均标准化,相当于把坐标轴原店移到图的中心位置
❀基变换
为了简化起见,先假设 每列 Xj 是1维的一个数[X1,X2,…Xp]E=[F1,F2,……Fp] A
表示向量X在原本的坐标轴下的坐标为(X1,X2……Xp),而在以A的行向量为坐标轴下,X的坐标变为(F1,……Fp)
xi是n维的也一样,每一行相当于一个向量Xi
❀当A是正交矩阵, 正交变换相当于坐标轴旋转,不改变向量长度
标准化后的协方差矩阵
❀协方差
X1,X2是两个随机变量,则cov(X1,X2)=E(X1-EX1)(X2-EX2)
❀样本协方差
C O V ( X 1 , X 2 ) = 1 / n ∑ i = 1 n ( X i 1 − X 1 ‾ ) (