数据挖掘方法:决策树归纳与案例推理
1. 决策树归纳
1.1 决策树剪枝公式
决策树剪枝过程中,使用如下公式计算子树的复杂度代价:
[CP(T) = E(T) + \alpha \cdot Leaves(T)]
其中,$E(T)$ 是子树 $T$ 中误分类样本的数量,$N(T)$ 是属于子树 $T$ 的样本数量,$Leaves(T)$ 是子树 $T$ 的叶子节点数量,$\alpha$ 是自由定义的参数,常被称为复杂度参数。当计算得到的 $\alpha$ 值最小时,将对应的子树替换为叶子节点。
1.2 树选择方法
算法会尝试将所有子树替换为叶子节点,得到一系列的树 $T_0 < T_2<… <T_i<…< T_n$,其中 $T_0$ 是原始树,$T_n$ 是根节点。这些树会在独立数据集上进行评估,从中选择使独立数据集上误分类最少的最小树作为最终树,这就是 0 - SE(0 - 标准误差)选择方法。还有一种更宽松的 1 - SE 方法,选择的最小树的误差不超过 $E_{min}+SE(E_{min})$,其中 $E_{min}$ 是决策树 $T_i$ 产生的最小误差数量,$SE(E_{min})$ 是从独立数据集估计的经验误差的标准差,计算公式为:
[SE(E_{min}) = \sqrt{\frac{E_{min}(N - E_{min})}{N}}]
其中 $N$ 是测试样本的数量。
1.3 决策树归纳的一般问题
1.3.1 属性选择顺序问题
属性选择依赖于属性的顺序。当两个属性对于选择标准都具有最佳值时,数据表中首
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



