机器学习17-随机森林中的细节点（更新中）

最新推荐文章于 2022-05-22 10:01:16 发布

新之

最新推荐文章于 2022-05-22 10:01:16 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习理论文章标签：随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xinzhi8/article/details/73279123

本文探讨了随机森林在处理特征连续性时如何选择分割点，并着重介绍了其优点，如高维数据处理能力、特征重要性评估、无偏泛化能力、并行化训练及对不平衡数据集的适应性。同时，也提到了随机森林的缺点，包括可能的过拟合问题以及对取值较多属性的敏感性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，特征连续如何选择分割点

1，根据样本平均数分割，取特征的最大值减去最小值，再除以N份，求每一份的信息熵
2，根据样本类别分割，将样本投影在特征上分出N类别，在每个类别中取一个点，或中值，或平均值等，然后算熵
3，（推荐）随机取点：在最大值与最小值中随机取个点，取N次，算每次熵。

二，样本不均衡的常用处理方法假定样本A的数目比B类多，且严重不平衡。样本本身的不均衡，如信用卡欺诈
或样本采集造成的不均衡

1，A类欠采样（推荐）
（1）在A中随机分成若干个子类，分别与B类生成若干个决策树
（2）基于聚类，将A类分割成若干类，在每类中随机取若干个样本，与B类生成决策树
2，B类过采样
将B类重复取样N次
3，B类数据合成
随机插值得到新样本
4，代价敏感学习

降低A类的权值，提高B类的权值

三，随机森林的优缺点

优点
1、在当前的很多数据集上，相对其他算法有着很大的优势，表现良好
2、它能够处理很高维度（feature很多）的数据，并且不用做特征选择
3、在训练完后，它能够给出哪些feature比较重要
4、在创建随机森林的时候，

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。