机器学习面试必知：决策树

最新推荐文章于 2022-04-30 23:44:12 发布

原创最新推荐文章于 2022-04-30 23:44:12 发布 · 801 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#决策树

机器学习同时被 3 个专栏收录

39 篇文章

订阅专栏

面试

39 篇文章

订阅专栏

统计学习

23 篇文章

订阅专栏

本文深入解析决策树算法，包括ID3、C4.5及CART三种决策树生成方法。探讨了信息增益、信息增益比及基尼指数等特征选择准则，详细解释了它们在决策树构建中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树（decision tree）是一种基本的分类与回归方法，主要优点时模型具有可读性，分类速度快，学习时利用训练数据根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。决策树学习通常包括三个步骤：特征选择，决策树的生成和决策树的修剪。

决策树学习的损失函数通常是正则化的极大似然函数，决策树学习的策略是以损失函数为目标函数的最小化。确定了损失函数后，学习问题就变为在损失函数意义下选择最优决策树的问题，但这是个NP完全问题，一般采用启发式算法来近似求解这一最优化问题。

1. 信息增益(ID3算法)
特征 $A$ 对训练数据集 $D$ 信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即 $g (D, A) = H (D) - H (D ∣ A)$
假设训练数据集为 $D$ ,容量为 $∣ D ∣$ 。有 $K$ 个 $C_{k}$ 类，个数为 $C_{k}|$ 。特征 $A$ 有n个不同的取值，根据这些取值会把 $D$ 划分为n个子集，样本个数是 $D_{i}|$ 。 $D_{i}$ 子集中属于 $C_{k}$ 类的样本个数是 $D_{ik}|$ 。那么通过计算选择出信息增益最大的特征作为切分点。 $H(D)=−∑k=1K∣Ck∣∣D∣log(∣Ck∣∣D∣)H(D)=-\sum_{k=1}^{K}\frac{|C_{k}|}{|D|}log(\frac{|C_{k}|}{|D|})$ $H(D∣A)=∑i=1n∣Di∣∣D∣H(Di)=−∑i=1n∣Di∣∣D∣∑k=1K∣Dik∣∣Di∣log(∣Dik∣∣Di∣)H(D|A)=\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}H(D_{i})=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_{i}|}log(\frac{|D_{ik}|}{|D_{i}|})$
2. 信息增益比(C4.5生成算法)

以信息增益作为划分训练数据的特征，存在偏向于选择取值较多的特征的问题，使用信息增益比可以解决这个问题。

$gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n∣Di∣∣D∣log(∣Di∣∣D∣)g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}\qquad H_{A}(D)=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}log(\frac{|D_{i}|}{|D|})$
3. 基尼指数(CART分类与回归树)
分类问题中，假设有K个类，样本点属于第 $k$ 类的概率为 $p_{k}$ ,则概率分布的基尼指数为 $Gini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2Gini(p)=\sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^{2}$ 对于给定的样本集合 $D$ ，基尼指数为 $Gini(D)=1−∑k=1K(∣Ck∣∣D∣)2Gini(D)=1-\sum_{k=1}^{K}(\frac{|C_{k}|}{|D|})^{2}$ 在特征 $A$ (是否是A，所以只有两类情况)的条件下，集合 $D$ 的基尼指数定义为 $Gini(D,A)=∣D1∣∣D∣Gini(D1)+∣D2∣∣D∣Gini(D2)Gini(D,A)=\frac{|D_{1}|}{|D|}Gini(D_{1})+\frac{|D_{2}|}{|D|}Gini(D_{2})$