Udacity机器学习入门——主成分分析PCA

本文介绍了PCA(主成分分析)的基本概念和应用,通过实例展示了PCA如何找到新坐标系,并讨论了主成分的选择及其作用。内容包括PCA在降维、去除噪声和预处理中的使用,以及在不同主成分数量下对分类器性能的影响。通过 sklearn 中的 PCA 库进行实践操作,探讨了选择合适主成分的数量对模型性能的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

以下数据是一维还是二维


练习1:通过PCA找到新坐标系的中心(2,3),△x=1,沿坐标系x’向右移,则△y=1;△y=1,沿坐标系y’向上移,则△x=-1

向量长度√2,按原坐标系计算


练习2:通过PCA找到新坐标系的中心(3,3),△y=-1,沿坐标系x’移动,则△x=2;△x=1沿坐标系y’移动,△y=2

 x’=0.5a+3.5     

 x’+△y=0.5(a+△x)+3.5     

因为△y=1,则△x=2


y’=2a-3(两直线垂直斜率乘积-1)           

y’+△y=2(a+△x)-3   

因为△x=1,则△y=2


练习:哪些数据可以用于PCA?


练习:轴何时占主导地位

长轴是否占优势(长轴特征值远远大于短轴特征值)?1和3长轴捕获了全部数据,2中短轴与长轴不断延伸,因此其两个特征值可能具有相同的量级,而我们实际上并没有通过运行pca获得更多信息



从四个特征到两个


在不知道有多少特征的情况下,选择size和neighborhood特征,用SelectKBest(只保留K个最适合特征)

SelectPercentile(保留的特征的百分比)



复合特征:

二维特征通过映射成一维


练习:沿着最大方差的维度进行映射时,能够保留原始数据中最多的信息


练习:最大主成分数量=训练点数量和特征数量的最小值

PCA回顾/定义:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值