PCA降维原理以及举例

博客探讨了PCA(主成分分析)降维的原因和步骤,包括选择特征、相关性与互信息检测冗余特征。PCA是一种线性降维方法,用于分类和回归问题,特别是在数据可视化时的必要性。通过sklearn库实现PCA,讲解了PCA的参数、成员及方法,并给出一个PCA降维的示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

将图像读取之后,如若将每一个像素点看做特征,数据过于庞大和冗余,同时为了速度和可视化效果应先对读取进来的数据进行降维处理。

1.1

消减维度的理由:

(1)大多数的模型在维度较小的情况下比较安全,多余的特征会影响或误导学习器;

(2)更多的特征需要调整更多的参数,容易产生过拟合;

(3)较少的维度数据集训练速度快;

(4)实现数据可视化时,大多限制在两、三个维度上,更加体现降维的必要。

无法使用选择方法删减特征,可以采用统计方法(PCA、LDA、MDS)降维。

1.2降维步骤:

(1)选择特征:删除有明显依赖关系的特征。

(2)用筛选器检测冗余特征:相关性(只针对线性关系),互信息(针对非线性关系)。

具体判断:

使用相关性进行筛选时,从数据序列出发,使用scipy.stats.pearsonr()函数进行相关系数计算,返回值为[相关性系数,P值],P值越大,越不可以相信所计算出的相关性系数。

互信息从数据的分布出发,引入信息熵的概念。具有较高互信息量的特征对,删掉其中一个特征,计算量大。

(3)用封装器让模型选择特征:

筛选器扔掉看似没有用处的特征,但有时可能包含他效果更好,引进封装器,在Sklearn.feature_selection包中RFE比较常用。

(4)其他特征选择方法---特征抽取PCA,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值