一,特征连续如何选择分割点
1,根据样本平均数分割,取特征的最大值减去最小值,再除以N份,求每一份的信息熵2,根据样本类别分割,将样本投影在特征上分出N类别,在每个类别中取一个点,或中值,或平均值等,然后算熵
3,(推荐)随机取点:在最大值与最小值中随机取个点,取N次,算每次熵。
二,样本不均衡的常用处理方法假定样本A的数目比B类多,且严重不平衡。样本本身的不均衡,如信用卡欺诈
或样本采集造成的不均衡
1,A类欠采样(推荐)
(1)在A中随机分成若干个子类,分别与B类生成若干个决策树
(2)基于聚类,将A类分割成若干类,在每类中随机取若干个样本,与B类生成决策树
2,B类过采样
将B类重复取样N次
3,B类数据合成
随机插值得到新样本
4,代价敏感学习
降低A类的权值,提高B类的权值
三,随机森林的优缺点
优点
1、 在当前的很多数据集上,相对其他算法有着很大的优势,表现良好
2、它能够处理很高维度(feature很多)的数据,并且不用做特征选择
3、在训练完后,它能够给出哪些feature比较重要
4、在创建随机森林的时候,

本文探讨了随机森林在处理特征连续性时如何选择分割点,并着重介绍了其优点,如高维数据处理能力、特征重要性评估、无偏泛化能力、并行化训练及对不平衡数据集的适应性。同时,也提到了随机森林的缺点,包括可能的过拟合问题以及对取值较多属性的敏感性。
最低0.47元/天 解锁文章
1178

被折叠的 条评论
为什么被折叠?



