决策树信息熵数理剖析

本文深入探讨了信息熵在决策树中的应用,解释了信息熵的数学定义和Gini系数,强调了熵在衡量数据集混乱程度中的作用。通过信息增益和信息增益率,阐述了ID3和C4.5算法的构建原理,并提到了连续属性处理和缺失值处理。此外,文章还讨论了决策树的剪枝策略——预剪枝和后剪枝,以防止过拟合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

                                   原文地址:http://siligence.ai/article-451-1.html
                                   
                                        **决策树信息熵数理剖析**
                                   
                                          信息熵记录拓展决策树

                                                    张⼀极 

                                                      2019年年3⽉月9日

假如有一个集合为a[1,2,3,4,5],另⼀一个集合为b[1,2,3,2,2,4]

那么我们对应的应该如何获取两个数据集的信息熵呢,首先我们需要了了解信息熵的
定义,在数学上,信息熵作为数据集混乱程度的计算量化指标,我们获得最后的结果应该是通
过这个公式:

熵 = −∑n pilog2(pi)
i=1

在log2n当中,有这么⼀一个特点:与x轴交于[0,1],所以当体系混乱的时候,会有特别⼤的负值,那么体系稳定的时候,会有⼩小的负值存在log函数当中,最后归正,体系混乱的数据集,
信息熵就特别⼤大,体系稳定的数据,信息熵就会趋于0.

在数学当中,与信息熵有相同含义的数据有Gini系数:
Gini§ = ∑k pk(1 − pk)

k=1
构造决策树的基本想法是随着树深度的增加,节点的熵迅速降低,降低速度越快越好,

1

信息熵记录拓拓展决策树
那么⼀一开始我们应该如何去寻找rootnode,我们需要计算当前节点的熵值,⽐比如正样

本的概率为0.23,负样本的概率为0.77,熵为[ -0.23*log2_0.23-0.77log2_0.77 ]
信息增溢,gain(fe

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值