机器学习:随机森林RF总结

1、随机森林(Random Forest,简称RF)

顾名思义就是以树为基本单位的集成学习模型。每棵树都会得到一个分类结果,进行投票,森林最终选择投票最多的类别作为最终结果。随机体现在,用于训练单个决策树的样本与特征是通过随机选择产生。其中样本的抽取多选择有放回的随机抽取。随机抽取的优点在于极大地避免了因为决策树之间过高的的相似性从而导致的过拟合问题。

2、决策树的生长模式:

如果训练集中的样本数为N ,则从原始数据中随机抽取n个样本,多进行有放回的抽取。该样
本集将成为树木生长的训练集。
如果有M个输入变量,则指定数字m << M,以便在每个节点上从M个中随机选择m个变量,并
使用对这m个变量的最佳分割来分割节点。在森林生长期间,m的值保持恒定。
每棵树都尽可能地生长。没有修剪。

在有关随机森林的原始论文中,表明森林错误率取决于两件事:
森林中任何两棵树之间的相关性。增加相关性会增加森林错误率。
森林中每棵树的强度。错误率低的树是强分类器。增加单个树木的强度会降低森林错误率
减小用于训练的特征个数m会降低相关性和强度,增加它会同时增加。介于两者之间的某个位置是m的“最佳”范围-通常相当宽。使用OOB错误率(请参见下文),可以快速找到该范围内的m值。这是随机森林对其比较敏感的唯一可调参数。

3、随机森林的特征

训练可以高度并行化,对于大数据时代的大样本训练速度有优势。
它可以处理数千个输入变量,而无需删除变量。【每棵树仅随机选择指定数量的变量】
在训练后,可以给出各个特征对于输出的重要性——故该算法也可用于特征筛选
随着森林建设的进展,它会生成内部的概化误差的无偏估计。
它是一种估算丢失数据的有效方法,并在丢失大部分数据时保持准确性。对部分特征缺失不敏感。
它具有用于平衡类总体不平衡数据集中的错误的方法。
可以保存生成的林,以备将来在其他数据上使用。
计算出的原型给出有关变量和分类之间关系的信息。
它计算可用于聚类,定位异常值或(通过缩放)给出有趣数据视图的成对案例之间的邻近度。
上面的功能可以扩展到未标记的数据,从而导致无监督的聚类,数据视图和异常值检测。
它提供了一种检测变量相互作用的实验方法。
由于采用了随机采样,训练出的模型的方差小,泛化能力强。
相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。
更多信息

4、随机森林的缺点:

随机森林在解决回归问题时,并没有像它在分类中表现的那么好,这是因为它并不能给出一个
连续的输出。当进行回归时,随机森林不能够做出超越训练集数据范围的预测,这可能导致在某些特定噪声的数据进行建模时出现过度拟合。(PS:随机森林已经被证明在某些噪音较大的分类或者回归问题上会过拟合)。
对于许多统计建模者来说,随机森林给人的感觉就像一个黑盒子,你无法控制模型内部的运
行。只能在不同的参数和随机种子之间进行尝试。
可能有很多相似的决策树,掩盖了真实的结果。决策树之间相似度过高会导致过拟合,随机抽
样便是为了降低相似度
对于小数据或者低维数据(特征较少的数据),可能不能产生很好的分类。(处理高维数据&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值