【机器学习】随机森林 random forest

随机森林是一种集成学习方法,通过在样本和特征上引入随机性来构建多棵决策树,以此解决单一决策树可能存在的过拟合和偏差问题。在训练时,使用bootstrap抽样生成多个训练集,并在每个训练集上选择特征子集构建决策树;在预测时,通过投票或平均结果得出最终分类或回归结果。随机森林提高了模型的稳定性和准确性,减少了对特定特征的依赖。

了解随机森林之前,请先简单了解一下决策树,传送门

https://blog.youkuaiyun.com/yao09605/article/details/93741998

传送门回来之后可以发现决策树有决策树的问题,容易不符合现实,或者过拟合。在样本数量较小的情况下,容易因为训练集产生偏差。
举个?,比如我们需要对学生的成绩等第进行分类,简化起见分为(A,B)两类。供我们选择的特征有(语文成绩,数学成绩,体育成绩,英语成绩,身高,性别)
假如恰巧训练集中男生的成绩较好,大多数为A,女生大多数为B,那么根据决策树算法,可能认为性别是一个区分度很大的特征,在预测的时候就将性别作为重要的区分依据,但我们知道这是不符合常识的。但只用决策树就是没有办法。

于是有了随机森林,随机森林的基本思想是在样本和特征两个纬度进行随机。构建多个决策树构成森林。
训练阶段:使用随机的样本选择随机的特征构建决策树;
预测阶段:综合各个决策树的结果,投票决定最后结果。
盗个图:
在这里插入图片描述
下面介绍两个随机:

  1. 样本纬度的随机-- bootstrap
    bootstrap原意是拔靴带,引申义是自力更生,在训练集较小的情况下,我们就需要自力更生了。 所以bootstrap这个词用来形容这么一种算法:

    训练集样本数为N,我们希望从中生成m个大小为N的不同训练集。方法是从原始的训练集中随机抽取1个样本假设为 x 1 , 1 x_{1,1} x1,1(下标中第一个参数为新样本的编号,第二个参数为样本中样本编号)加入新样本集

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值