CVPR读书笔记[7]:PCA的理解

PCA原理详解
本文深入解析了主成分分析(PCA)的数学原理,包括如何通过协方差矩阵的对角化来寻找最佳投影矩阵,实现数据降维。同时讨论了在样本数小于特征数的情况下的计算方法。
部署运行你感兴趣的模型镜像
CVPR读书笔记[7]:PCA的理解
朱金华 jinhua1982@gmail.com
 
下文中A'=A^t表示A的转置.
 
n维数据的m个样本构成的n*m维矩阵X, 寻找n*n的变换矩阵W, 使得变换后的矩阵Y=W*X=Y.
简单的说如果W=(w1,w2,...wn)'中wi为变换后空间的基, 则上述变换即将X映射为新空间中m个n维的点. 这个映射关系是一对一的
 
如果只取新空间中的d个基组成的变换矩阵W0=(w1,w2,...wd)', 则W0*X为新空间中d*m维的矩阵, 即m个样本的维数变为d, 实际即是在新空间中得到降维
这里的矩阵相乘或者说是叫project, 其意义便是将X的每一个列向量(样本)映射到以W0为基构成的新空间中去. 在这里, 因为维数得到降低, 并不能保证原空间域新空间中的点是一对一的关系了
 
至此,大家可能会说n维空间有无数组基的可能,, 在这些基中又如何选择d个使得m个n维样本在其上的投影尽量保持原有信息? 即如何使得新空间中d行的相关度最低?
 
为了寻找这组最优基组成的投影矩阵P, 一种方案是使样本在新的正交坐标系中的投影点尽量分散(几何意义), 即其投影后的方差尽量大. 这通过将原n*m矩阵X的协方差矩阵进行对角化实现(代数意义).
(另一种我们可以从最小化投影误差考虑)
 
设变换为Y=PX, 其中X为n*m维, P为d个n维基向量, 即d*n维, Y为d*m维
Y的协方差矩阵D=1/mYY^t=1/m*PXX'P'=P(1/m*XX')P' , 其中C=1/m*XX'为X的协方差矩阵
因此需找Project Matrix P的问题现在变成寻找使得原样本矩阵X的协方差矩阵C=1/m*XX'对角化的矩阵P,
 
X的协方差矩阵C为实对称矩阵, 实对称矩阵特性如下:
[1]必有n个特征值且其值均大于0
[2]特征值对应的特征向量两两正交
 
设C的特征值为 λ 1 , λ 2 , ... λ n , 对应特征向量为e1,e2,...en
则Pn=(e1,e2,...en)^t便是一个完整将X映射到新空间Y的投影矩阵.
任取d个特征向量按行组成的投影Pd为一个将X映射到d维子空间的投影矩阵
 
为了得到样本信息损失最小的投影矩阵P, 只需选择特征值最大的d个特征值对应的特征向量即可, 我们将特征值排序,不失一般性, 仍记作 λ 1 , λ 2 , ... λ n
那么P即为(e1,e2,...ed)'
X变换后的即降维后的d维样本集合为Y=PX=(e1,e2,...ed)' X
 
 
PCA算法:
[1]对于m个n维样本集合X,按列存放组成n*m矩阵
[2]X进行零均值化, 每个元素减去该行的均值(该维的均值)
[3]C=1/m*XX'
[4]计算C的特征值及特征向量, 并将其按照特征值的大小排列
[5]根据方差保持的百分比决定选取保留多少个特征值及特征向量,或者直接指定保留p个. 这p个特征向量组成投影矩阵P
[6]Y=PX即为降维后的矩阵
 
 
推广:
有时我们用行向量来表示特征, 则上面的X为m*n维, m为样本数, n为特征数. 这样我们实际找的便是变换矩阵P(n行p列)使得Y=XP
道理是一样的.
 
 
 
对于维数n>样本数m的情形, 对于n*m的X来说C=1/m*XX'为n*n维实对称矩阵
设a为1/m*X'X的特征值, 即1/mX'Xe=ae,
则1/mXX'Xe=aXe=CXe
即a也是C=1/mX'X的特征值, 对应的特征向量为Xe
 
于是我们可以通过计算1/mX'X这个较小的m*m矩阵的特征值a,与特征向量e,得到C的特征值a以及其对应特征向量Xe
 
参考文献:
[1]"Atutorial onPrincipalComponentsAnalysis", LindsayISmith, http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf
[2]...很多很多...

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

采用PyQt5框架与Python编程语言构建图书信息管理平台 本项目基于Python编程环境,结合PyQt5图形界面开发库,设计实现了一套完整的图书信息管理解决方案。该系统主要面向图书馆、书店等机构的日常运营需求,通过模块化设计实现了图书信息的标准化管理流程。 系统架构采用典型的三层设计模式,包含数据存储层、业务逻辑层和用户界面层。数据持久化方案支持SQLite轻量级数据库与MySQL企业级数据库的双重配置选项,通过统一的数据库操作接口实现数据存取隔离。在数据建模方面,设计了包含图书基本信息、读者档案、借阅记录等核心数据实体,各实体间通过主外键约束建立关联关系。 核心功能模块包含六大子系统: 1. 图书编目管理:支持国际标准书号、中国图书馆分类法等专业元数据的规范化著录,提供批量导入与单条录入两种数据采集方式 2. 库存动态监控:实时追踪在架数量、借出状态、预约队列等流通指标,设置库存预警阈值自动提醒补货 3. 读者服务管理:建立完整的读者信用评价体系,记录借阅历史与违规行为,实施差异化借阅权限管理 4. 流通业务处理:涵盖借书登记、归还处理、续借申请、逾期计算等标准业务流程,支持射频识别技术设备集成 5. 统计报表生成:按日/月/年周期自动生成流通统计、热门图书排行、读者活跃度等多度分析图表 6. 系统护配置:提供用户权限分级管理、数据备份恢复、操作日志审计等管理功能 在技术实现层面,界面设计遵循Material Design设计规范,采用QSS样式表实现视觉定制化。通过信号槽机制实现前后端数据双向绑定,运用多线程处理技术保障界面响应流畅度。数据验证机制包含前端格式校验与后端业务规则双重保障,关键操作均设有二次确认流程。 该系统适用于中小型图书管理场景,通过可扩展的插件架构支持功能模块的灵活组合。开发过程中特别注重代码的可护性,采用面向对象编程范式实现高内聚低耦合的组件设计,为后续功能迭代奠定技术基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值