随机森林原理详解 random forest 代码+参数讲解

随机森林是一种集成学习方法,由多个决策树组成。它通过随机抽取样本和特征来构建多个决策树,并通过集成结果来提高预测精度。本文详细介绍了随机森林的原理,包括随机性和森林的构建过程,以及如何利用随机森林进行特征选择和处理缺失值。随机森林的主要优点是速度快、处理缺失值能力强,但可能在噪声大的数据中过拟合。常用的评价指标包括信息增益、基尼指数等,而随机森林的关键参数如树的数量、特征抽样等可通过sklearn库进行设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

事实上随机森林的基本单元决策树很早就被提出来了,只不过单个决策树效果不好。这个情况和神经网络差不多。

到了2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。在运算没有增加的情况下,精度提高了不少。

进入正题

随机森林由两个部分组成

随机 和 森林

森林简单来说就是很多颗树,而这个树就是决策树。

所以现在的问题可以有以下三个:什么叫决策树,树树之间怎么组成森林,又怎么个随机法?

现在先来回答第一个问题:

决策树,简单来说就是用来决策的树状结构。

emmm像这样的:

决策树

用更专业(装逼)的话来说就是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二。
在这里插入图片描述

第二个问题:树树之间怎么组成森林?

森林四步走,精度九十九

第一步:设有N个样本,有放回地随机选择n个样本。

第二步:设每个样本有M个属性,在每个决策树进行分裂时,随机抽样m个属性,m远小于M。然后运用某种评价指标评价每个属性,选择最佳属性作为分裂属性。

第三步:对于每个节点而言都要按照第二步来走,一直到评价指标遍历所有抽样出来的属性都无法得到改进为止。每棵树都尽可能生长没有剪枝。

第四步:重复前面三个步骤就变成了随机森林。

最后的结果会像这样:

就是这样的

那么接下来这个森林怎么用呢?就是说怎么用来预测呢?

我们都知道每棵树都会给出一个结果,那么怎么将这些结果变成

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值