主成分分析个人理解

主成分分析(PCA)通过对数据矩阵进行正交变换,将一组可能存在相关性的变量转化为线性不相关的主成分。该过程涉及坐标轴旋转和标准化,目的是减少数据的维度同时保留大部分信息。PCA的核心包括标准化数据、计算协方差矩阵、奇异值分解和选择主成分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考资料

知乎https://zhuanlan.zhihu.com/p/37777074虽然感觉它有些错误。。
https://www.bilibili.com/video/av28790123?from=search&seid=17981130295757951329
步骤

数据矩阵

设X是数据矩阵,Xn×p=[X1,X2,……Xp]

  • 列向量表示p个特征
  • 行向量表示n个样本

Xi·表示矩阵第i行→第i个样本的数据,i从1到n
X·j表示矩阵第j列→第j个特征的数据,j从1到p
我们下面考虑的都是列向量(特征)

目的

主成分分析(Principal Component Analysis,PCA)通过正交变换将一组可能存在相关性的变量
转换为一组线性不相关的变量,转换后的这组变量叫主成分。

本质目的也就是把p个(标准化后的)特征向量 通过坐标轴旋转,变为线性不相关

预备知识

线性代数

AB=C,C的列向量是A的列向量的线性组合
C的行向量是B的行向量的线性组合

坐标旋转

❀把每列 Xj 均标准化,相当于把坐标轴原店移到图的中心位置

❀基变换
为了简化起见,先假设 每列 Xj 是1维的一个数[X1,X2,…Xp]E=[F1,F2,……Fp] A
表示向量X在原本的坐标轴下的坐标为(X1,X2……Xp),而在以A的行向量为坐标轴下,X的坐标变为(F1,……Fp)
xi是n维的也一样,每一行相当于一个向量Xi

❀当A是正交矩阵, 正交变换相当于坐标轴旋转,不改变向量长度

标准化后的协方差矩阵

❀协方差
X1,X2是两个随机变量,则cov(X1,X2)=E(X1-EX1)(X2-EX2)
❀样本协方差

C O V ( X 1 , X 2 ) = 1 / n ∑ i = 1 n ( X i 1 − X 1 ‾ ) (

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值