《统计学习方法》（第五章）—— 决策树

最新推荐文章于 2024-08-10 00:35:27 发布

原创最新推荐文章于 2024-08-10 00:35:27 发布 · 340 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文围绕决策树模型展开，介绍了其定义、与if - then规则和条件概率分布的关系，以及学习本质。阐述了特征选择的准则，如信息增益和信息增益比。还详细讲解了决策树的生成算法（ID3、C4.5）、剪枝方法，以及CART算法（回归树和分类树）的生成与剪枝。

决策树模型和学习

决策树模型

定义：分类决策树模型是一种描述对实例分类的树型结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶节点表示一个类

决策树于if-then规则

可以将决策树看成一个if-then规则的集合。将决策树转换成if-then规则的过程是这样，每个内部结点代表一种规则，然后根据规则进行划分，最后到叶节点后，根据决策规则进行类别判别。

决策树与条件概率分布

决策树也可以表示给定特征条件下类别的条件概率分布。这一条件概率分布对应空间上的一个划分，最终叶子结点是个条件概率 $P (Y ∣ X)$

决策树学习

给定 $D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中 $xi=(xi(1),xi(2),...,xi(n))T,yi∈{1,2,...,K}x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,y_i \in\{1,2,...,K\}$ 表示其类别
决策树学习本质上是对训练数据中归纳出一种规则。与训练数据不相矛盾且具有很好的泛化能力,其学习也是定义一个损失函数，然后优化最小损失函数，但其是个NP完全问题，通常用启发式算法进行解决，递归的选择最优特征再生成决策树，最后再进行全局剪枝。

特征选择

特征选择问题

选取比较好的特征具有很好的分类能力，通常特征选择的准则是信息增益或信息增益比

信息增益

熵表示随机变量的不确定性的度量
$P(X=x_i)=p_i,i=1,2,...,n$
$H(X)=−∑i=1npilog⁡pi,H(X)=-\sum\limits_{i=1}^np_i\log\limits{p_i},$ 定义: $0log⁡0=00\log\limits{0}=0$
满足不等式 $0≤H(p)≤log⁡n0\le H(p)\le\log\limits{n}$
$X,Y)联合分布概率，P(X=x_i,Y=y_j)=p_{ij},i=1,2,...,,n;j=1,2,...,m$
条件熵 $H(Y∣X)=∑i=1npiH(Y∣X=xi),pi=P(X=xi),i=1,2,...,nH(Y|X)=\sum\limits_{i=1}^np_iH(Y|X=x_i),p_i=P(X=x_i),i=1,2,...,n$
信息增益定义：特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A),$ 定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A) 之差$
$g (D, A) = H (D) - H (D ∣ A)$ 也叫作互信息，越大表示特征A对数据区分度越好
算法：
输入：训练数据 $D 4 和特征$ A$
输出：特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$
$(1) .$ 计算数据集D的经验熵 $H (D)$
$H(D)=−∑k=1K∣Ck∣∣D∣log⁡2∣Ck∣∣D∣H(D)=-\sum\limits_{k=1}^K\frac{|C_k|}{|D|}\log\limits_2\frac{|C_k|}{|D|}$
$(2) .$ 计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H (D ∣ A)$
$H(D∣A)=∑i=1n∣Di∣∣D∣H(Di)=−∑i=1n∣Di∣∣D∣log⁡2∣Dik∣∣D∣H(D|A)=\sum\limits_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum\limits_{i=1}^n\frac{|D_i|}{|D|}\log\limits_2\frac{|D_{ik}|}{|D|}$
$(2) .$ 计算信息增益
$g (D, A) = H (D) - H (D ∣ A)$

信息增益比

信息增益划分数据存在一个问题，偏向于取值多的特征，因此引入信息增益比进行矫正。
定义：特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R(D,A),$ 定义信息增益 $g (D, A),$ 与训练数据集 $D$ 关于A值的熵 $H_A(D)$ 之比
$gR(D,A)=g(D,A)HA(D)g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
其中 $HA(D)=−∑i=1n∣Di∣∣D∣log⁡2∣Di∣∣D∣H_A(D)=-\sum\limits_{i=1}^n\frac{|D_i|}{|D|}\log\limits_2\frac{|D_i|}{|D|}$

决策树的生成

ID3算法

算法：
输入：训练数据集 $D$ ,特征集 $A$ 阈值 $ε\varepsilon$
输出：决策树 $T$
$(1) .$ 若 $D$ 中所有实例属于同一类 $C_K,$ 则 $T$ 为单节点树，并将类 $C_k$ 作为该节点的类标记，返回 $T$
$(2) .$ 若 $A=∅A=\empty$ ,则 $T$ 为单节点树，并将 $D$ 中实例最大的类别 $C_k$ 作为该节点的类标记，返回 $T$
$(3) .$ 否则，计算 $A$ 中各种特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$
$(4) .$ 如果 $A_g$ 的信息增益小于阈值 $ε\varepsilon$ ，则置 $T$ 为单叶子节点，并将 $D$ 中实例数最大的类别 $C_k$ 作为该节点的类标记，返回 $T$
$(5) .$ 否则，对 $A_g$ 中每个可能值 $A_g=a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的作为标记，由此节点构建子树 $T$
$(6)$ 对第 $i$ 个子节点，以 $D_i$ 为训练集,以 $A-\{A_g\}$ 为特征集，递归调用 $(1) - (5)$ 得到子树 $T_i$ ,返回 $T_i$

C4.5的生成算法

算法：
输入：训练数据集 $D$ ,特征集 $A$ 阈值 $ε\varepsilon$
输出：决策树 $T$
$(1) .$ 若 $D$ 中所有实例属于同一类 $C_K,$ 则 $T$ 为单节点树，并将类 $C_k$ 作为该节点的类标记，返回 $T$
$(2) .$ 若 $A=∅A=\empty$ ,则 $T$ 为单节点树，并将 $D$ 中实例最大的类别 $C_k$ 作为该节点的类标记，返回 $T$
$(3) .$ 否则，计算 $A$ 中各种特征对 $D$ 的信息增益比，选择信息增益比最大的特征 $A_g$
$(4) .$ 如果 $A_g$ 的信息增益小于阈值 $ε\varepsilon$ ，则置 $T$ 为单叶子节点，并将 $D$ 中实例数最大的类别 $C_k$ 作为该节点的类标记，返回 $T$
$(5) .$ 否则，对 $A_g$ 中每个可能值 $A_g=a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的作为标记，由此节点构建子树 $T$
$(6)$ 对第 $i$ 个子节点，以 $D_i$ 为训练集,以 $A-\{A_g\}$ 为特征集，递归调用 $(1) - (5)$ 得到子树 $T_i$ ,返回 $T_i$

决策树剪枝

决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现，设数 $T$ 的叶节点个数 $∣ T ∣$ , $t$ 是数 $T$ 的叶节点，该叶节点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个， $k = 1, 2, . . ., K, H (T)$ 为叶节点 $t$ 上的经验熵， $α≥0\alpha\ge0$ 为参数，则决策树学习的损失函数可以定义为：
$Ca(T)=∑t=1∣T∣NtHt(T)+α∣T∣C_a(T)=\sum\limits_{t=1}^{|T|}N_tH_t(T)+\alpha|T|$
其经验熵为
$Ht(T)=−∑kNtkNtlog⁡NtkNtH_t(T)=-\sum\limits_k\frac{N_{tk}}{N_t}\log\limits\frac{N_{tk}}{N_t}$
在损失函数中，将上上式右边第一项记作
$C(T)=∑t=1∣T∣NtHt(T)=−∑t=1∣T∣∑k=1KNtklog⁡NtkNtC(T)=\sum\limits_{t=1}^{|T|}N_tH_t(T)=-\sum\limits_{t=1}^{|T|}\sum\limits_{k=1}^KN_{tk}\log\limits\frac{N_{tk}}{N_t}$
这时有
$Ca(T)=C(T)+α∣T∣C_a(T)=C(T)+\alpha|T|$

算法：
输入：生成算法产生整个树 $T$ ，参数 $α\alpha$
输出：修减后的子树 $T_a$
$(1) .$ 计算每个节点的经验熵
$(2) .$ 递归地从树的叶节点向上回缩
设一组叶节点回缩到其父亲节点之前与之后的整体树分别为 $T_B$ 与 $T_A$ ,其对应的损失函数值分别是 $C_a(T_B)$ 与 $C_a(T_A)$ ,如果 $Ca(TA)≤Ca(TB)C_a(T_A)\le C_a(T_B)$ 则进行剪枝，即将父亲节点变为新的叶节点
$(3) .$ 返回 $(2)$ 直到不能执行为止

CART算法

CART生成

回归树
回归树是用来输出连续变量的
假设 $X$ 和 $Y$ 分别为输入和输出变量，并且 $Y$ 是连续变量，给定训练数据集
$D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
回归树就是把输入划分为 $M$ 个单元 $R_1,R_2,...,R_M$ ,并且在单元 $R_m$ 上固定输出 $c_m$
$f(x)=∑m=1Mc^mI(x∈Rm)f(x)=\sum\limits_{m=1}^M\hat{c}_mI(x\in R_m)$ ,由平方误差知 $∑xi∈Rm(yi−f(xi))2\sum\limits_{x_i\in R_m}(y_i-f(x_i))^2$
$c^m=ave(yi∣xi∈Rm)\hat{c}_m=ave(y_i|x_i \in R_m)$ 最优
选取最优划分第 $j$ 个变量 $x^{(j)}$ 的取值 $s$ 进行划分
$R1(j,s)={x∣x(j)≤s}R_1(j,s)=\{x|x^{(j)}\le s\}$ $R_2(j,s)=\{x|x^{(j)}> s\}$
$minj,s[minc1∑xi∈R1(j,s)(yi−c1)2+minc2∑xi∈R2(j,s)(yi−c2)2]min_{j,s}[min_{c_1}\sum\limits_{x_i \in R_1(j,s)}(y_i-c_1)^2+min_{c_2}\sum\limits_{x_i \in R_2(j,s)}(y_i-c_2)^2]$
$c^1=ave(yi∣xi∈R1(j,s))\hat{c}_1=ave(y_i|x_i \in R_1(j,s))$ $c^2=ave(yi∣xi∈R2(j,s))\hat{c}_2=ave(y_i|x_i \in R_2(j,s))$
算法：
输入：训练数据集 $D :$
输出：回归树 $f (x)$
$(1).minj,s[minc1∑xi∈R1(j,s)(yi−c1)2+minc2∑xi∈R2(j,s)(yi−c2)2](1).min_{j,s}[min_{c_1}\sum\limits_{x_i \in R_1(j,s)}(y_i-c_1)^2+min_{c_2}\sum\limits_{x_i \in R_2(j,s)}(y_i-c_2)^2]$ 求之
$(2).c^1=ave(yi∣xi∈R1(j,s))(2).\hat{c}_1=ave(y_i|x_i \in R_1(j,s))$ $c^2=ave(yi∣xi∈R2(j,s))\hat{c}_2=ave(y_i|x_i \in R_2(j,s))$
$(3)$ 继续 $(1), (2)$ 直到满足条件
$(4)$ $f(x)=∑m=1Mc^mI(x∈Rm)f(x)=\sum\limits_{m=1}^M\hat{c}_mI(x\in R_m)$
分类树
- 基尼指数
  定义：分类问题中假设有 $K$ 类，样本点属于第k类的概率为 $p_k$ ,则概率分布的基尼指数为
  $Gini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2Gini(p)=\sum\limits_{k=1}^Kp_k(1-p_k)=1-\sum\limits_{k=1}^Kp_k^2$
  $Gini(D)=1−∑k=1K(∣Ck∣D)2Gini(D)=1-\sum\limits_{k=1}^K(\frac{|C_k|}{D})^2$
  如果样本 $D$ 根据特征 $A$ 是否取 $a$ 进行划分，分割成 $D_1$ 和 $D_2$
  $D1={(x,y)∈D∣A(x)=a)}D_1=\{(x,y) \in D|A(x)=a)\}$ $D_2=D-D_1$
  特征A下的集合D的基尼指数 $Gini(D,A)=∣D1∣∣D∣Gini(D1)+∣D2∣∣D∣Gini(D2)Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$ 其越大，不确定性越大，选小的
算法：
输入：训练数据集 $D :$
输出： $C A R T$ 决策树
$(1)$ 设节点的训练集为 $D$ 计算其基尼指数
$(2)$ 选择基尼指数最小的点进行划分
$(3)$ 继续 $(1), (2)$ 直到满足条件
$(4)$ 生成 $C A R T$ 决策树

CART剪枝

$(1)$ 剪枝整树，定义 $Ca(T)=C(T)+α∣T∣C_a(T)=C(T)+\alpha|T|$ 为损失函数，把 $α从小到大生成序列，0=α0<α1<...<αn<+∞\alpha从小到大生成序列，0=\alpha_0<\alpha_1<...<\alpha_n<+\infin$ 产生一系列区间 $[αi,αi+1),i=0,1,...,n[\alpha_i,\alpha_{i+1}),i=0,1,...,n$ 对应生成 ${T_0,T_1,...,T_n\}$ 最后我们交叉验证一下选择最优就OK
$Ca(T)=C(T)+α∣T∣C_a(T)=C(T)+\alpha|T|$
$Ca(Tt)=C(Tt)+α∣Tt∣C_a(T_t)=C(T_t)+\alpha|T_t|$
当 $α=0\alpha=0$ 或足够小有 $C_a(T_t)<C(T_t)$
当 $α\alpha$ 增大有 $C_a(T_t)=C(T_t)$ ，再大就不等式反号
$α=C(t)−C(Tt)∣Tt∣−1\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}$ 选择一个节点最优，所以进行剪枝。取 $g(t)=C(t)−C(Tt)∣Tt∣−1g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$ 为对应区间最优子树
$(2) .$ 对子树序列 $T_0,T_1,T_2,...,T_n$ 进行交叉验证等选择最优子树,同时也确定了 $α\alpha$ 大小

算法：
输入： $C A R T$ 决策树
输出：最优子树 $TαT_{\alpha}$
$(1)$ $k=0,T=T_0$
$(2)$ 设 $α=+∞\alpha=+\infin$
$(3)$ 自下向上地对 $t$ 计算 $C(T_t),|T|$ 以及
$g(t)=C(t)−C(Tt)∣Tt∣−1g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$
$α=min(α,g(t))\alpha=min(\alpha,g(t))$
$(4)$ 对 $g (t) = a$ 内部剪枝得到子树 $T$
$(5)$ 设 $k=k+1,αk=α,Tk=Tk=k+1,\alpha_k=\alpha,T_k=T$
$(6)$ 如果 $T_k$ 不是由跟节点和两个叶节点组成的树，则返回 $(2)$ 否则令 $T_k=T_n$
$(7)$ 交叉验证子树序列 $T_0,T_1,....,T_n$ 中得到最优子树 $TαT_\alpha$