随机森林-Random_Forest

本文深入解析了随机森林这一经典机器学习算法。介绍了其构建过程、如何确定最佳分裂特征及计算特征权重的方法。此外还讨论了随机森林中关键超参数的作用及调整技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随机森林(Random_Forest)

  • 综述
    1).顾名思义,随机森林就是许多树组合一起、最终predict结果服从投票机制(Bagging)的分类器。基本组成单位是决策树(decision_tree)
    2).常用于分类问题(尤其二分类)

  • 构建过程(假设共有训练样本m个,每个样本包含特征n个)
    1). 从总样本集中使用重采样方式选择m个样本
    2). 从总特征n中选择n_use个特征+上一步选择出来的m个样本–>用于建立决策树
    注:由于使用的是重采样方式,对于每一棵决策树的建立来说,大概有1/3的样本未参与到此棵树的建立过程,这些数据称之为袋外数据
    3). 以上2步重复执行k次,产生k棵决策树,组成随机森林
    4). 最中预测结果采用投票方式(Bagging)进行决定

  • 确定最佳分裂特征和计算特征权重
    1). 决策树的建立过程中,如何确定使用什么特征作为当前的分裂参数呢?
      教常用的有两种种指标:
      1.1). Gini系数(使用范围更广)
      1.2). 信息增益
    2). 如何确定每个特征对最终结果的贡献程度(也就是特征权重)?
      目前有两种方式
      2.1). 基于袋外数据误差:
       2.1.1). 对于随机森林的每一棵决策树,使用其袋外数据计算袋外数据误差,记为OOBError_1
       2.1.2). 随机地对袋外数据的所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为OOBError_2
       2.1.3). 假设随机森林中有Ntree棵树,那么对于特征X的重要性= OOBError2OOBError1Ntree ∑ O O B E r r o r 2 − O O B E r r o r 1 N t r e e ,若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高
       2.1.4). 最后进行归一化,得到相应的特征权重
     2.2). 基于Gini系数:
       2.2.1). 决策分类过程中,选择将gini减小最大的特征,并记录通过该特征减小的gini系数
       2.2.2). 假设要计算特征X的权重,则累加所有树中特征X对应的gini系数
       2.2.3). 最后进行归一化,得到相应的特征权重

  • 超参数说明
      1).n_estimators:默认值为10,此值过大,可能过拟合;此值过小,容易欠拟合
      2).max_depth:决策树的最大深度
      3).min_samples_split:节点进行划分需要的最少样本数
      4).max_features:进行划分时需要考虑的最大特征个数
      5).min_samples_leaf:决策树叶子节点的最少样本数
     在实验过程中,以上几个超参数对最终模型有重要作用,但是想找到最优的超参数并不是特别难得事情。
     我们可以使用网格搜索或者随机搜索确定最优超参数
      1).网格搜索(GridSearchCV):搜索结果一定是所给范围内的最优超参数,但耗时长
      2).随机搜索(RandomizedSearchCV):搜索结果不一定是所给范围内的最优超参数,但速度快,结果也会贴近最优超参数

#Summary:
1)看了很多帖子,大概都是说随机森林不会过拟合,but过拟合这个东西貌似是ML/DL的固有属性吧,应该会产生,而且对模型的影响较大
2)随机森林中的特征权重计算很有意思,值得琢磨一下
3)sklearn中集成了随机森林,使用起来十分方便,详见sklearn的randomforest
4)谨以此来纪念第一篇blog


*作者:gengmiao 时间:2018.02.17,原创文章,转载请保留原文地址、作者等信息*

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值