数据量太大时往往会有相关性较高的维度,给建模计算带来不必要的开支。
算法步骤:
输入:n维样本集
,要降维到的维数n'.
输出:降维后的样本集D'
1) 对所有的样本进行中心化:
2) 计算样本的协方差矩阵
3) 对矩阵
进行特征值分解
4)取出最大的n'个特征值对应的特征向量
将所有的特征向量标准化后,组成特征向量矩阵W。
5)对样本集中的每一个样本
,转化为新的样本
6) 得到输出样本集
推导:
PCA思想:
- 将高维数据投影至低维空间,从而减少获得源数据的主要特征。
- 获得低维转换的方法:在低维空间里方差最大。
有mXn维数据,对其去中心化,
。设新坐标系正交基为

本文详细介绍了主成分分析(PCA)的原理和步骤,用于高维数据降维,最大化低维空间中的方差。PCA通过计算协方差矩阵的特征值和特征向量实现,选择最大的n'个特征值对应的特征向量形成新坐标系。此外,还探讨了奇异值分解(SVD)的过程,并比较了PCA与SVD的区别。
最低0.47元/天 解锁文章
800

被折叠的 条评论
为什么被折叠?



