决策树(二)--构造特征树和剪枝

本文介绍了决策树的剪枝方法,包括先剪枝和后剪枝策略,以解决过拟合问题。先剪枝在树构建过程中提前停止,后剪枝则是在树完全生长后进行。损失函数用于衡量剪枝效果,结合经验熵和模型复杂度。CART算法通过递归剪枝找到最优子树,并通过交叉验证确定最终剪枝结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前面记录了特征值的选取,现在我们就来说一下剪枝。

决策树的剪枝

在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常,剪枝方法处理这种过分拟合数据的问题。

有常用的两种剪枝方法:先剪枝和后剪枝。

    先剪枝:通过提前停止树的构建(例如,通过决定在给定的结点不再分裂或划分训练元组的子集)而对树"剪枝"。一旦停止,结点就成为树叶。

    后剪枝:由"完全生长"的树剪去子树,通过删除结点的分枝并使用树叶替换它而剪掉给定节点上的子树。该树叶的类标号用子树中最频繁的类标记。 

决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。设树T的叶结点的个数为|T|t是树T的叶结点,该叶结点有N_{t}个样本点,其中k类的样本点有N_{tk}个,k=1,2,...KH_{t}(T)为叶结点t上的经验熵,则决策树的损失函数可以定义为:

                                                     C_{a}(T)={C(T)+a|T|}   (损失函数=拟合度+a*模型复杂度)

其中C(T)={\sum_{i=1}^{|T|}{N_{t}H_{t}(T)}表示模型对训练数据的预测误差,即模型与训练数据的拟合程度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值