机器学习算法三:bagging及随机森林算法

本文深入探讨了机器学习中的随机森林算法,从信息、熵、信息增益和决策树的基础开始,逐步解析bagging方法和随机森林的工作原理。随机森林通过自助采样法生成训练集,利用决策树的随机属性选择,有效防止过拟合,适用于高维数据处理,具有较高的准确性和抗噪声能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在学习随机森林算法之前,首先需要对一些基础知识有一些了解。

1 信息、熵,信息增益及决策树

在学习任何跟决策树有关的算法时,都会接触到题目中的这几个概念,理解这几个概念有助于以后的学习,废话不多说。

1.1 信息

信息这个概念真的极其的抽象,看了很多博主的文章感觉还是理解不了,再看看香农的话,信息是用来消除随机不确定性的东西,更让人不知所云。
要理解信息的概念,就必须了解信息含量这个东西是如何去量化的,举个例子:小明说“明天NBA总决赛骑士VS勇士,我觉得骑士赢!”和小王说“明天NBA总决赛骑士VS勇士第四场,之前比分为3:0,我觉得骑士赢定了”。NBA总决赛谁会最终取得胜利这个不得而知,是一个不确定事件,但是相比于小明的话,小王的话显得更让人信服,因为小王提供了更多的信息,让一个不确定的事件变得似乎更确定了,所以信息的量化跟不确定性的变化趋势是相关的,当一个事件由不确定变得似乎确定时,说明提供给该事件的信息量得到了增加,如果提供的信息不影响事件的确定性,则说明信息量没有增加,比如:你说“明天太阳会从东边升起来”,就算你把这句话说一百遍,然后给我一堆解释为什么太阳要从东边升起,但是对于事件本身来说信息量没有丝毫的增加,因为这个事件本身就是确定的,任何话都不会改变这个事件的确定性。
那么这个不确定性的变化跟什么有关了?
1.跟事情的可能结果的数量有关
2.跟事件结果发生概率有关
我们该如何用数学公式来表示信息量呢?某类信息量的定义公式如下:

I(X=xi)=log2p(xi) I ( X = x i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值