决策树:回归与分类的实用指南
1. 决策树概述
决策树是一种强大的数据分析工具,它通过估计协变量与响应之间的关系,从观察数据中构建树形结构。从根节点开始,每个顶点根据协变量的条件向左或向右分支,最终到达终端节点以获得响应。
与其他方法相比,决策树结构简单,虽然估计精度可能较差,但具有直观易懂的优点,便于理解协变量与响应之间的关系。决策树常用于理解变量之间的关系,而非预测未来,并且可用于回归和分类任务。
不过,决策树存在一个问题,即即使使用遵循相同分布的观测数据,估计的树形状也可能有很大差异。为了减少这种差异,可以采用类似抽样的方法,从原始数据中多次抽取相同大小的数据,以降低决策树的变异性。此外,还可以通过生成多个小决策树的方法(如提升法)来进行高精度预测。
2. 回归决策树
2.1 基本概念
回归决策树旨在通过观察数据 $(x_1, y_1), \ldots, (x_N, y_N) \in R^p \times R$ 来展示协变量($p$ 个变量)与响应之间的关系。决策树由顶点和分支组成,分支节点(内部节点)可左右分支,终端节点则不再分支。相邻顶点中,靠近终端的为子节点,另一个为父节点,没有父节点的顶点称为根节点。
构建决策树时,每个 $x \in R^p$ 属于对应终端节点的区域 $R_1, \ldots, R_m$ 之一。对于回归和分类决策树,同一区域内的两个值应输出相同的响应。具体而言,当联合概率密度函数为 $f_{XY}(x, y)$ 时,我们构建规则:
[
x_i \in R_j \Rightarrow \hat{y} i = \bar{y}_j
超级会员免费看
订阅专栏 解锁全文
1336

被折叠的 条评论
为什么被折叠?



