python机器学习13:自动特征选择

本文介绍了Python中特征选择的三种方法:单一变量法、基于模型的选择和迭代式特征选择。通过中国股票市场股价涨幅数据集展示了如何使用SelectPercentile、随机森林和RFE进行特征选择,并分析了不同方法对模型预测性能的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.使用单一变量法用于特征选择

点一变量法的定义:

  有一定统计学基础的同学可能了解,在统计学中,我们会分析在样本特征和目标之间是否会有明显的相关性。在进行统计分析的过程中,我们会选择那些置信度最高的样本特征来进行分析。当然这只适用于样本特征之间没有明显关联的情况,也就是大家常说的单一变量法(univariate)。
  举个例子,在市场营销中,玩具厂商更关注目标人群的年龄,不同年龄段的儿童对于玩具的需求是不相同的,所以厂商更倾向于根据年龄来细分市场,并且进行产品设计。而小额贷公司更关心客户的偿债能力,因此会将目标客户的收入情况作为更重要的特征。在这种情况下,有些不是那么重要的特征就会被剔除。这种方法的优点是计算量较小,而且不需要建模,只用基本的方差分析就可以实现了。

  在scikit-learn中,有若干种方法可以进行特征选择,其中最简单的两种是SelectPercentile和SelectKBest,其中SelectPercentile是自动选择原始特征的百分比,例如原石特征的特征数是200个,那么SelectPercentile的pecentile参数设置为50,就会选择100个原石特征中的50%,即100个,而SelectKBest是自动选择K个最重要的特征。
  下面我们用一个非常刺激的数据集来做个试验。说这个数据集刺激,是因为它是来自中国股市。我们用证券交易软件导出了当日全部A股股票的交易数据,保存成为了一个csv文件,并且去掉了无效数据,具体获取方式如下:

中国股票市场的股价涨幅数据集收取

首先,需要一个股票交易软件,如果你在某个整卷交易公司开过户,就应

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾牛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值