机器学习算法之随机森林

最新推荐文章于 2025-03-13 21:31:01 发布

原创最新推荐文章于 2025-03-13 21:31:01 发布 · 555 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #随机森林

本文介绍了bootstrap方法，一种通过有放回地抽取样本构建新数据集的技术，并解释了其在bagging和随机森林中的应用。随机森林是一种bagging的特殊形式，使用CART决策树作为基模型，通过特征随机性和样本随机性降低过拟合风险。

bootstrap
一批数据有m个样本，有放回的抽取m次，形成一个新的数据集，这种方法就是bootstrap。
新的数据集肯定是包含一些重复的数据，假设一条数据没有被抽中的概率为 $1−1m1-\frac{1}{m}$ ， $m$ 次抽取均未抽到的概率为 $(1−1m)m(1-\frac{1}{m})^m$ ，当 $m$ 趋近与无穷大的时候，值为 $1e\frac{1}{e}$ ，即36.8%。也就是说会有36.8%的数据没有被抽中，这些数据被称之为oob（out of bag），可以用作交叉验证。
bagging
全称bootstrap aggregating，采用bootstrap的方法获取k个新的数据集，使用这些新的数据集来建立k个模型，然后集成k个模型的输出结果。回归问题使用k个输出结果的均值作为最终的输出结果，分类问题采取投票方法作为最终的输出结果
随机森林
随机森林是一种特殊的bagging方法，它以CART决策树作为基模型，使用bootstrap方法形成k个新的数据集，再使用这k个新的数据集来训练CART决策树，在训练CART决策树的过程中不会使用全部的特征来训练，而是随机选择若干个特征来训练，随机选择的特征数越小，模型越健壮，可以通过交叉验证来选取合适的特征数，假如总特征数为 $x$ ，一般选取的特征数为 $x\sqrt{x}$ 。由于bootstrap选择样本的随机性以及这里选择特征的随机性，大大降低了随机森林模型过拟合的风险，降低了随机森林模型的方差。对于回归问题而言，主模型的输出是若干个CART基模型输出的均值；对于分类问题而言，主模型的输出是若干个CART基模型输出的投票结果。
随机森林的CART基模型严格来讲并不是一个弱模型，这一点与boosting算法不同。算法的误差来自于偏差+方差，模型越复杂，偏差越小，方差越大，反之亦然。在随机森林中，由于样本选择的随机性以及特征选择的随机性，导致了每一个模型的偏差很大，所以需要适当的加深树的深度，即增强基模型，来减少基模型的偏差，从而减少总体误差。
优点