第十五章 降维

本文介绍了主成分分析(PCA)这一常用的降维方法。详细讲述了PCA的核心思想、问题规划步骤,包括数据预处理、协方差计算及奇异值分解等关键技术。并探讨了如何选择合适的主成分数目,以及如何进行数据的压缩与重现。
部署运行你感兴趣的模型镜像

目录

1 数据压缩

2 主成分分析问题规划1

3 主成分分析问题规划2

4 主成分数量选择

选择方法1

选择方法2

5 压缩重现

6 建议


1 数据压缩

上一章中我们学习了聚类算法,这一章中我们要学习第二类无监督学习问题,降维。

降维的定义:样本由一个个特征组成,假如一个样本有n个特征,则我们称数据是n维的。降维的工作就是在保证数据特征不变的情况下,减少特征的个数,为了保证不变性,我们通常只把多个相似,相关特征合并为1个特征。

降维的目的有两个,一是压缩数据:减少了数据量后可以降低存储空间消耗,同时提高计算速度。其二是便于可视化,九维十维无法通过可视化手段展现,但通过降维让维度达到二维三维后就能通过可视化处理进行数据分析了。

2 主成分分析问题规划1

主成分分析(PCA)是最常用的降维方法之一。其核心思想是找到一个方向向量,当我们把所有数据都投射到该向量上时,我们希望投射平均均方差误差能尽可能地小。方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度,简而言之就是找出一个低维的平面或子空间,把空间投影到上面,从而使原样本与投影后的样本的距离的平方和最小。

PCA在上左图中做的就是试着找一个方向向量,使得向量投影到这个方向向量上的投影误差最小。而在上右图做的就是由u1,u2两个向量定义了一个平面,而我们将数据投影到这个面上。

PCA和线性回归的图像非常相似,但实际上,这是两个完全不同的概念。

上图中左边是线性回归的误差,其垂直于横轴投影,而右边则是主成分分析误差,垂直于红线投影。

PCA最大的优点在于完全无参数限制,并且对数据进行降维处理,可以简化模型同样最大程度保持了原有数据的信息。

3 主成分分析问题规划2

第一步:要对数据进行预处理,均值标准化,即计算某个特征的平均值,然后使用特征值减去平均值来代替原来的特征值,有时候还要进行特征缩放。

第二步:计算协方差

将上式计算出的值代入SVD公式(奇异值分解算法)求出三个矩阵

\left [ U,S,V \right ]=svd(\Sigma )

然后第一个矩阵U的前k列就是所需的k维,然后用前k列的转置乘x得z,是一个k维向量

然后用z代替x即可

4 主成分数量选择

降维的目的是在保证特征趋势不变的情况下选择小的k,在数学的角度就是在保留最大的方差性的前提下,选择最小的k。

选择方法1

设压缩后还原得到的特征值为x_{approx}​​​​​​​ ,则x-x_{approx} 即压缩后损失

s是损失方差,选择k的过程就是逐渐增大k,并保证s在合理范围内。

选择方法2

\left [ U,S,V \right ]=svd(\Sigma )

通过计算矩阵s来计算k。

5 压缩重现

压缩重现就是把压缩后的低维数据恢复到高维,由于所以

6 建议

1 PCA只用在训练集上,而降维矩阵可以应用在测试集和交叉训练集上。

2 不用PCA防止过拟合,会丧失关键信息。

3 PCA不是必须选项,如有必要再使用。

您可能感兴趣的与本文相关的镜像

LobeChat

LobeChat

AI应用

LobeChat 是一个开源、高性能的聊天机器人框架。支持语音合成、多模态和可扩展插件系统。支持一键式免费部署私人ChatGPT/LLM 网络应用程序。

课程设计报告:总体方案设计说明 一、软件开发环境配置 本系统采用C++作为核心编程语言,结合Qt 5.12.7框架进行图形用户界面开发。数据库管理系统选用MySQL,用于存储用户数据与小精灵信息。集成开发环境为Qt Creator,操作系统平台为Windows 10。 二、窗口界面架构设计 系统界面由多个功能模块构成,各模块职责明确,具体如下: 1. 起始界面模块(Widget) 作为应用程序的入口界面,提供初始导航功能。 2. 身份验证模块(Login) 负责处理用户登录与账户注册流程,实现身份认证机制。 3. 游戏主大厅模块(Lobby) 作为用户登录后的核心交互区域,集成各项功能入口。 4. 资源管理模块(BagWidget) 展示用户持有的全部小精灵资产,提供可视化资源管理界面。 5. 精灵详情模块(SpiritInfo) 呈现选定小精灵的完整属性数据与状态信息。 6. 用户名录模块(UserList) 系统内所有注册用户的基本信息列表展示界面。 7. 个人资料模块(UserInfo) 显示当前用户的详细账户资料与历史数据统计。 8. 服务器精灵选择模块(Choose) 对战准备阶段,从服务器可用精灵池中选取参战单位的专用界面。 9. 玩家精灵选择模块(Choose2) 对战准备阶段,从玩家自有精灵库中筛选参战单位的操作界面。 10. 对战演算模块(FightWidget) 实时模拟精灵对战过程,动态呈现战斗动画与状态变化。 11. 对战结算模块(ResultWidget) 对战结束后,系统生成并展示战斗结果报告与数据统计。 各模块通过统一的事件驱动机制实现数据通信与状态同步,确保系统功能的连贯性与数据一致性。界面布局遵循模块化设计原则,采用响应式视觉方案适配不同显示环境。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值