bagging method 和random forests 一般都是应用在决策树中。这篇文章只讨论bagging method 和random forests 的区别。
bagging method 的思想: 假设一个数据集L,通过Boostrap(自助抽样)有放回的抽样n次,那么产生了n个样本数据集,记为n个train集。
第一步:我们将这n个train集进行训练,因此产生了n个基分类器,也可以说是n个决策树
第二步:利用这n个基分类器对测试集进行预测,因此会得到n个结果。
第三步:采取多数投票(majorty vote):将n个预测的结果出现频率最高的类作为总体预测。
仔细思考下会出现一些新的问题,如果一个数据集有一个很强的预测变量和一些中等强度的预测变量,那么可以想到,大多数(甚至所有)的树都会将最强的预测变量用于顶部分裂点,这会造成所有的装袋法树看起来都很相似。与不相关的量求平均相比,对许多高度相关的量求平均带来的方差减小程度是无法与前者相提并论的。在这种情况下,装袋法与单棵