22、决策树与规则学习：原理、方法及应用

tequila

于 2025-08-29 11:01:47 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习入门精要文章标签：决策树回归树剪枝

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/tequila/article/details/152510947

机器学习入门精要专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

决策树与规则学习：原理、方法及应用

1. 决策树的基本问题

决策树在构建过程中存在一个问题，即分割操作往往倾向于具有多个值的属性。当属性具有多个值时，会产生许多分支，此时杂质（impurity）可能会显著降低。例如，如果将训练索引 t 作为一个属性，杂质度量会选择它，因为这样每个分支的杂质为 0，但这并非一个合理的特征。具有多个分支的节点较为复杂，这与将类别判别拆分为简单决策的理念相悖。为此，人们提出了一些方法来惩罚这类属性，以平衡杂质下降和分支因子。

当数据中存在噪声时，如果将树生长到最纯净的状态，可能会得到一个非常大的树，从而导致过拟合现象。例如，在一组正确标记的实例中存在一个错误标记的实例。为了缓解过拟合问题，当节点达到足够纯净时，树的构建就会停止。具体来说，如果杂质度量 I < θI ，则数据子集不再进一步分割。这意味着我们不要求 pᵢₘⱼ 精确为 0 或 1，而是接近即可，这里的阈值为 θₚ 。在这种情况下，会创建一个叶节点，并将其标记为具有最高 pᵢₘⱼ 的类别。

θI （或 θₚ ）是复杂度参数，类似于非参数估计中的 h 或 k 。当这些参数较小时，方差较高，树会生长得很大以精确反映训练集；而当它们较大时，方差较低，较小的树大致代表训练集，但可能存在较大的偏差。理想值取决于误分类成本、内存成本和计算成本。

一般建议在叶节点中存储类别的后验概率，而不是将叶节点标记为具有最高后验

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。