决策树(二)--构造特征树和剪枝

最新推荐文章于 2024-10-11 19:47:17 发布

Phoenix_tgd

最新推荐文章于 2024-10-11 19:47:17 发布

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：数据挖掘文章标签：决策树分类剪枝

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Phoenix_tgd/article/details/84524332

本文介绍了决策树的剪枝方法，包括先剪枝和后剪枝策略，以解决过拟合问题。先剪枝在树构建过程中提前停止，后剪枝则是在树完全生长后进行。损失函数用于衡量剪枝效果，结合经验熵和模型复杂度。CART算法通过递归剪枝找到最优子树，并通过交叉验证确定最终剪枝结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前面记录了特征值的选取，现在我们就来说一下剪枝。

决策树的剪枝

在决策树创建时，由于数据中的噪声和离群点，许多分枝反映的是训练数据中的异常，剪枝方法处理这种过分拟合数据的问题。

有常用的两种剪枝方法：先剪枝和后剪枝。

先剪枝：通过提前停止树的构建（例如，通过决定在给定的结点不再分裂或划分训练元组的子集）而对树"剪枝"。一旦停止，结点就成为树叶。

后剪枝：由"完全生长"的树剪去子树，通过删除结点的分枝并使用树叶替换它而剪掉给定节点上的子树。该树叶的类标号用子树中最频繁的类标记。

决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。设树 $T$ 的叶结点的个数为 $|T|$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_{t}$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个， $k=1,2，...K$ ， $H_{t}(T)$ 为叶结点 $t$ 上的经验熵，则决策树的损失函数可以定义为：

$C_{a}(T)={C(T)+a|T|}$ （损失函数=拟合度+a*模型复杂度）

其中 $C(T)={\sum_{i=1}^{|T|}{N_{t}H_{t}(T)}$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。