第六章-6.1决策树

图1
对上决策树,采用C4.5进行裁剪。

通常C4.5采用C=25%的置信度来计算,对应的置信度标准差z=0.69,。对于误差率e的估计为:

                                    

其中,f为误差率f=E/N,E为错误分类数量,N为总数。

则有,图1中,健康计划-None的分支有4个bad(错误分类),2个good(正确分类),f=0.33,e=0.47;同理,健康计划-Half和健康计划-full的误差率e分别为0.72和0.47。组合误差率为:0.47*6/14+0.72*2/14+0.47*6/14=0.51。训练集健康计算共有9个bad(错误分类),5个good(正确分类),e为0.46,小于组合误差,因而节点被裁剪掉。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值