Python每日一记42>>>机器学习中特征重要性feature_importances_

本文探讨了机器学习模型中特征重要性的概念,特别是在决策树和随机森林算法中的应用。通过实例解释了如何使用feature_importances_参数来评估特征对模型预测的影响,并提到了特征重要性在变量自相关情况下的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在进行机器学习算法中,我们常用的算法就像下面的代码形式类型
经历导入数据-预处理-建模-得分-预测
在这里插入图片描述
但是总觉得少了点什么,虽然我们建模的目的是进行预测,但是我们想要知道的另一个信息是变量的重要性,在线性模型中,我们有截距和斜率参数,但是其他机器学习算法,如决策树和随机森林,我们貌似没有这样的参数
值得庆幸的是我们有变量重要性指标feature_importances_,但是就目前而言,这个参数好像只有在决策树和以决策树为基础的算法有。但是考虑到随机森林已经能解决大部分的分类和回归问题,我们就暂且以随机森林算法为例,介绍特征重要性吧

先考虑一个简单的问题
在这里插入图片描述
在这里插入图片描述
列表中的数据和你元数据的表头是对应的,最大值为1,值越大,越重要
在这里插入图片描述
以上只是简单的算法,但是大部分时候,我们会加上交叉验证的网格搜索,那应该怎么办呢
估计算法主题其实就是best_estimator_,再追加特征重要性参数就可以了。注意在这之间要转化为Dataframe,否则会运行错误。

在这里插入图片描述
在这里插入图片描述

关于其他机器学习算法的特征重要性,大家可以自行寻找其他方法,正在寻找和学习中,需要提醒的是,特征重要性对于变量自相关性不敏感,也就是说,在变量间存在相关性的时候,特征重要性指标可能与实际想要的结果有所偏差,说白了,就是不准。

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值