8、数据挖掘方法:决策树归纳与案例推理

数据挖掘方法:决策树归纳与案例推理

1. 决策树归纳

1.1 决策树剪枝公式

决策树剪枝过程中,使用如下公式计算子树的复杂度代价:
[CP(T) = E(T) + \alpha \cdot Leaves(T)]
其中,$E(T)$ 是子树 $T$ 中误分类样本的数量,$N(T)$ 是属于子树 $T$ 的样本数量,$Leaves(T)$ 是子树 $T$ 的叶子节点数量,$\alpha$ 是自由定义的参数,常被称为复杂度参数。当计算得到的 $\alpha$ 值最小时,将对应的子树替换为叶子节点。

1.2 树选择方法

算法会尝试将所有子树替换为叶子节点,得到一系列的树 $T_0 < T_2<… <T_i<…< T_n$,其中 $T_0$ 是原始树,$T_n$ 是根节点。这些树会在独立数据集上进行评估,从中选择使独立数据集上误分类最少的最小树作为最终树,这就是 0 - SE(0 - 标准误差)选择方法。还有一种更宽松的 1 - SE 方法,选择的最小树的误差不超过 $E_{min}+SE(E_{min})$,其中 $E_{min}$ 是决策树 $T_i$ 产生的最小误差数量,$SE(E_{min})$ 是从独立数据集估计的经验误差的标准差,计算公式为:
[SE(E_{min}) = \sqrt{\frac{E_{min}(N - E_{min})}{N}}]
其中 $N$ 是测试样本的数量。

1.3 决策树归纳的一般问题

1.3.1 属性选择顺序问题

属性选择依赖于属性的顺序。当两个属性对于选择标准都具有最佳值时,数据表中首

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值