机器学习17-随机森林中的细节点(更新中)

本文探讨了随机森林在处理特征连续性时如何选择分割点,并着重介绍了其优点,如高维数据处理能力、特征重要性评估、无偏泛化能力、并行化训练及对不平衡数据集的适应性。同时,也提到了随机森林的缺点,包括可能的过拟合问题以及对取值较多属性的敏感性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,特征连续如何选择分割点

1,根据样本平均数分割,取特征的最大值减去最小值,再除以N份,求每一份的信息熵
2,根据样本类别分割,将样本投影在特征上分出N类别,在每个类别中取一个点,或中值,或平均值等,然后算熵
3,(推荐)随机取点:在最大值与最小值中随机取个点,取N次,算每次熵。



二,样本不均衡的常用处理方法假定样本A的数目比B类多,且严重不平衡。样本本身的不均衡,如信用卡欺诈
或样本采集造成的不均衡

1,A类欠采样(推荐)

   (1)在A中随机分成若干个子类,分别与B类生成若干个决策树
   (2)基于聚类,将A类分割成若干类,在每类中随机取若干个样本,与B类生成决策树
2,B类过采样
     将B类重复取样N次
3,B类数据合成
     随机插值得到新样本
4,代价敏感学习

      降低A类的权值,提高B类的权值


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值