cart决策树的后剪枝策略

本文探讨了在cart决策树中后剪枝策略的重要性,旨在通过剪枝提高计算速度并防止过拟合。介绍了以节点纯度为基础的损失函数,用于确定何时进行剪枝,以及如何计算临界阈值进行最优子树的选择。剪枝过程从阈值最小的非叶子节点开始,通过独立测试数据集评估子树的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

后剪枝策略一般要求我们先构建好决策树,使的得每个叶子节点都是纯的(只有一种结果)。然后再进行剪枝操作。

一般认为对构建好的决策树进行剪枝有几个好处。1 可以加快计算的速度 2 可以防止过拟合。其中2是更主要的原因。

那么怎样判断何时应当进行剪枝操作呢?一种很自然的想法是,当模型的复杂度超过它带来的准确率增益时,应当进行剪枝操作。可以将子树的损失函数定义为:J(\Gamma ) = E(\Gamma ) + \lambda *|\Gamma |, 其中E(\Gamma)表示以该节点为跟的子树的误差。|\Gamma|则表示子树的节点个数。可以看出这个函数跟一般意义上的结构风险最小化的函数是一类的,都是采用误差加罚项的形式。

对于剪枝的之前的决策树的某一节点c,它的单点误差J(c)= E(c)+ \lambda。而以它为根节点的子树的误差可以表示为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值