14、决策树:原理、剪枝与规则转换

决策树:原理、剪枝与规则转换

1. 决策树基础

决策树是一种强大的分类工具,它通过依次测试属性值来决定下一步的操作,若到达叶节点则给出类别标签。可以说,决策树由一组部分有序的测试组成,每个测试序列定义了树中的一个分支,并以叶节点结束。

从一个典型的训练集可以创建许多不同的决策树。通常,较小的树更受青睐,因为它们具有更好的可解释性,能够去除无关和冗余的属性,并且降低了对有噪声训练数据过拟合的风险。

决策树的归纳过程通常是递归的,旨在找出能为类别标签提供最多信息的属性。这种方法倾向于使生成的决策树更小,而“最佳”属性是通过信息论中的简单公式来确定的。

2. 决策树剪枝

决策树剪枝是决策树归纳的一个重要方面,其主要目的是确保树的所有分支都有足够的证据支持,同时减小树的规模,带来诸多优势。

2.1 剪枝的本质

剪枝的本质是用叶节点替换一个或多个子树,每个叶节点标记为在原始分类器中到达被移除子树的训练示例中最常见的类别。

例如,在图 6.2 中,原始决策树有六个属性测试(t1 - t6),剪枝后的版本中,以测试 t3 为根的子树被标记为负类的叶节点替换,以测试 t6 为根的子树被标记为正类的叶节点替换。

2.2 误差估计

剪枝通常按步骤进行,每次用叶节点替换一个子树,直到根据合理标准判断替换不再有益。这里需要考虑误差估计,以确保小树的优势不会被分类性能的下降所抵消。

设 m 为决策树中到达测试 t3 的训练示例数量,若将以 t3 为根的子树替换为叶节点,可能会有一些示例被误分类,设误分类的示例数量为 e。为避免 m 值较

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值