c4.5算法解读

本文介绍了C4.5算法,它是ID3算法的优化版,通过信息增益比率来选择特征,克服了ID3偏好属性值多的特征的问题。文章详细讲解了熵和信息熵公式,阐述了ID3算法及其缺点,并重点讨论了C4.5算法如何处理连续属性和缺失值,以及其优缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、熵的认识

1、熵的概念

2、信息熵公式推导

二、ID3

ID3过程:

实例论证

 总结

ID3缺点:

三、C4.5

C4.5算法优缺点分析


 

C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化。

所以要介绍C4.5算法,就要把ID3,以及ID3中设计的熵的概念一起进行讲解。

关于熵的概念在溯源探幽--熵的世界文章中做了很详细的介绍,所以这里大致过一下。

一、熵的认识

1、熵的概念

熵:是表示随机变量不确定性的度量,熵的取值越大,随机变量的不确定性也越大。

设X是一个取有限个值的离散随机变量,其概率分布为 

P(X=xi)=pi, i=1,2,⋯,n

熵计算公式:H(X)=- ∑ pi * logpi,i=1,2, ... , n

一个栗子: A集合[1,1,2,2,2,2,2,2,2,2] 

               B集合[1,1,2,3,4,5,6,7,8,9] 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Andy_shenzl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值