8、数据挖掘方法：决策树归纳与案例推理

雪落无声360

于 2025-10-16 16:14:12 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：多媒体数据挖掘探秘文章标签：决策树归纳基于案例的推理 CBR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/agile9scrum/article/details/153761298

多媒体数据挖掘探秘专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据挖掘方法：决策树归纳与案例推理

1. 决策树归纳

1.1 决策树剪枝公式

决策树剪枝过程中，使用如下公式计算子树的复杂度代价：
[CP(T) = E(T) + \alpha \cdot Leaves(T)]
其中，$E(T)$ 是子树 $T$ 中误分类样本的数量，$N(T)$ 是属于子树 $T$ 的样本数量，$Leaves(T)$ 是子树 $T$ 的叶子节点数量，$\alpha$ 是自由定义的参数，常被称为复杂度参数。当计算得到的 $\alpha$ 值最小时，将对应的子树替换为叶子节点。

1.2 树选择方法

算法会尝试将所有子树替换为叶子节点，得到一系列的树 $T_0 < T_2<… <T_i<…< T_n$，其中 $T_0$ 是原始树，$T_n$ 是根节点。这些树会在独立数据集上进行评估，从中选择使独立数据集上误分类最少的最小树作为最终树，这就是 0 - SE（0 - 标准误差）选择方法。还有一种更宽松的 1 - SE 方法，选择的最小树的误差不超过 $E_{min}+SE(E_{min})$，其中 $E_{min}$ 是决策树 $T_i$ 产生的最小误差数量，$SE(E_{min})$ 是从独立数据集估计的经验误差的标准差，计算公式为：
[SE(E_{min}) = \sqrt{\frac{E_{min}(N - E_{min})}{N}}]
其中 $N$ 是测试样本的数量。

1.3 决策树归纳的一般问题

1.3.1 属性选择顺序问题

属性选择依赖于属性的顺序。当两个属性对于选择标准都具有最佳值时，数据表中首

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。