决策树:原理、剪枝与规则转换
1. 决策树基础
决策树是一种常用的分类工具,在决策树中,属性值会被逐个测试,每次测试的结果决定下一步的操作:可能是进行另一个属性测试,或者在到达叶子节点时做出关于类别标签的决策。可以说,决策树由一组部分有序的测试组成,每个测试序列定义了树中的一个分支,并以叶子节点结束。
从一个典型的训练集可以创建许多不同的决策树。一般来说,较小的树更受青睐,因为它们具有更好的可解释性,能够去除无关和冗余的属性,并且降低对有噪声训练数据过拟合的风险。
决策树归纳的最常见方法是递归进行的,始终尝试找出能提供关于类别标签最多信息的属性。这种方法有助于使生成的决策树更小,“最佳”属性通过从信息论中借鉴的简单公式来确定。
2. 决策树剪枝
2.1 剪枝的动机
剪枝是决策树归纳中的一个重要环节,主要目的是确保所有树分支都有足够的证据支持,同时减小树的规模,带来如可解释性增强、减少过拟合等好处。
2.2 剪枝的原理
剪枝的本质是用叶子节点替换一个或多个子树,每个叶子节点标记为在原始分类器中到达被移除子树的训练示例中最常见的类别。
2.3 误差估计
- 单个子树误差估计 :假设决策树中到达测试 t3 的训练示例数量为 m,如果将以 t3 为根的子树替换为叶子节点,可能会有 e 个示例被错误分类。为了估计示例在该叶子节点被错误分类的概率,考虑到 m 值较小时相对频率 e/m 估计可能有问题,使用公式 (E_{estimate}=\frac{e + 1}{N + m}),其中 N 是
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



