机器学习16-熵与随机森林

熵是衡量系统混乱程度的指标,在决策树构建中用于度量信息增益。随机森林通过熵来选择最优分割策略,信息增益最大的特征更可能成为父节点。通过分析天气、温度等因素决定打网球的例子,展示了如何使用熵和信息增益选择决策树的分裂条件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

                                   熵与随机森林

一,熵

   熵是描述系统混乱的量,熵越大说明系统越混乱,携带的信息就越少,熵越小说明系统越有序,携带的信息越多。

   举2个例子,抛掷一枚硬币,正反面出现的概率都为50%,根据熵的计算公式,此时的熵最大,整个投掷系统最混乱,投掷时候我不知道会出现正面还是反面,透露的信息很少。但,当一个硬币被做了手脚,抛掷此硬币出现正面的概率为99.9%,反面的概率为0.1%,整个投掷系统是很有序的,投掷时候我知道基本会出现正面,而且知道硬币极大可能被动了手脚,或者对手作弊等等,透露的信息很多。还可以这样理解,同样大的硬盘,熵越大磁道坏的就越多,他可以承载的信息越少,熵越小意味着坏掉的磁道越少,可以承载的信息量越大。

   熵在概率论中的计算公式



二,熵为什么可做随机森林中决策树的度量方案

                           

如上图,分割图中红绿点的最好方案时什么?

一种分割方法:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值