14、决策树:原理、剪枝与规则转换

决策树:原理、剪枝与规则转换

1. 决策树基础

决策树是一种常用的分类工具,在决策树中,属性值会被逐个测试,每次测试的结果决定下一步的操作:可能是进行另一个属性测试,或者在到达叶子节点时做出关于类别标签的决策。可以说,决策树由一组部分有序的测试组成,每个测试序列定义了树中的一个分支,并以叶子节点结束。

从一个典型的训练集可以创建许多不同的决策树。一般来说,较小的树更受青睐,因为它们具有更好的可解释性,能够去除无关和冗余的属性,并且降低对有噪声训练数据过拟合的风险。

决策树归纳的最常见方法是递归进行的,始终尝试找出能提供关于类别标签最多信息的属性。这种方法有助于使生成的决策树更小,“最佳”属性通过从信息论中借鉴的简单公式来确定。

2. 决策树剪枝

2.1 剪枝的动机

剪枝是决策树归纳中的一个重要环节,主要目的是确保所有树分支都有足够的证据支持,同时减小树的规模,带来如可解释性增强、减少过拟合等好处。

2.2 剪枝的原理

剪枝的本质是用叶子节点替换一个或多个子树,每个叶子节点标记为在原始分类器中到达被移除子树的训练示例中最常见的类别。

2.3 误差估计

  • 单个子树误差估计 :假设决策树中到达测试 t3 的训练示例数量为 m,如果将以 t3 为根的子树替换为叶子节点,可能会有 e 个示例被错误分类。为了估计示例在该叶子节点被错误分类的概率,考虑到 m 值较小时相对频率 e/m 估计可能有问题,使用公式 (E_{estimate}=\frac{e + 1}{N + m}),其中 N 是
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值