随机森林输出特征重要程度

_Cat_

于 2021-11-15 21:49:11 发布

阅读量2.1k

点赞数 2

分类专栏：机器学习文章标签：随机森林机器学习

本文链接：https://blog.youkuaiyun.com/weixin_44414527/article/details/121344453

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

读取CSV文件，拿到特征名字

data = pd.read_csv('train.csv')
feature_names = data.columns[:-1] #特征名，最后一列是标签

定义一个决策树或者加载以训练的决策树
输出特征重要性

print('Features sorted by their score:')
# print(clf.feature_importances_) # 输出这个就可以得到特征重要性，但是只有数值，不具有可读性
print(sorted(zip(feature_names, map(lambda x:round(x,4), clf.feature_importances_)),key=lambda x: x[1],reverse=True))

示例：
Features sorted by their score:
[ (‘duration’, 0.4400), (‘bytes_out’, 0.2105), (‘issuer_fields’, 0.1228), (‘subject_fields’, 0.1200), (‘num_pkts_out’, 0.1067)]