17、决策树与最近邻算法:原理、分析与实践

决策树与最近邻算法:原理、分析与实践

1. 决策树简介

决策树是一种预测器 (h : X →Y),通过从树的根节点到叶节点的遍历,预测与实例 (x) 相关的标签。为简化起见,我们主要关注二分类问题,即 (Y = {0, 1}),不过决策树也可应用于其他预测问题。在根到叶的路径上的每个节点,根据输入空间的划分选择后续子节点。通常,这种划分基于 (x) 的某个特征或预定义的划分规则。叶节点包含特定的标签。

1.1 示例:木瓜决策树

以木瓜为例,决策树首先检查木瓜的颜色。如果颜色不在浅绿到浅黄色的范围内,树会立即预测木瓜不好吃,无需额外测试。否则,树会检查木瓜的软度。如果木瓜的软度使得它在手掌压力下稍有凹陷,决策树预测木瓜好吃;否则,预测为“不好吃”。这个例子凸显了决策树的一个主要优点——得到的分类器非常容易理解和解释。

1.2 样本复杂度

树的内部节点常用的划分规则基于对单个特征的值进行阈值处理。即根据 (1[xi<θ]) 决定移动到节点的右子节点还是左子节点,其中 (i ∈[d]) 是相关特征的索引,(θ ∈R) 是阈值。在这种情况下,决策树可以看作是将实例空间 (X = Rd) 划分为多个单元格,树的每个叶节点对应一个单元格。因此,具有 (k) 个叶节点的树可以打散一组 (k) 个实例。如果允许任意大小的决策树,我们会得到一个具有无限 VC 维的假设类,这种方法容易导致过拟合。

为避免过拟合,我们可以依靠最小描述长度(MDL)原则,目标是学习一个既能很好地拟合数据,又不会太大的决策树。为简化分析,假设 (X = {0, 1}d),即每个实例是一个 (d) 位的向量。在这种情况下,对单个特征的值进行阈值处理对

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值