机器学习：决策树算法：ID3、C4.5、CART、CHAID：原理、应用场景及优缺点

最新推荐文章于 2025-10-04 03:01:30 发布

原创

最新推荐文章于 2025-10-04 03:01:30 发布 · 2.3k 阅读

·

35

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #算法 #决策树 #数据分析 #数据挖掘

一、ID3算法

原理
- 信息熵（Entropy）：信息熵用于衡量数据集的混乱程度。对于数据集 $D$ ，包含 $n$ 个类别标签，其信息熵 $H (D)$ 计算公式为：
  $H(D)=−∑k=1npklog⁡2pkH(D)=-\sum_{k = 1}^{n}p_k\log_2p_k$
  其中 $p_k$ 是数据集中属于第 $k$ 类样本的比例。例如，在一个简单的天气分类数据集中（晴天、雨天、多云），若晴天样本占比 $p_1 = 0.4$ ，雨天 $p_2 = 0.3$ ，多云 $p_3 = 0.3$ ，则信息熵 $H(D)=-0.4\log_20.4 - 0.3\log_20.3-0.3\log_20.3$ 。
- 信息增益（Information Gain）：用于衡量特征对数据集纯度的提升程度。假设数据集 $D$ ，属性 $a$ 有 $V$ 个不同取值 $,aV}\{a^1,a^2,\cdots,a^V\}$ 。使用属性 $a$ 对 $D$ 进行划分，得到 $V$ 个子集 $,DV}\{D^1,D^2,\cdots,D^V\}$ 。信息增益 $g (D, a)$ 计算公式为：
  $g(D,a)=H(D)−∑v=1V∣Dv∣∣D∣H(Dv)g(D,a)=H(D)-\sum_{v = 1}^{V}\frac{|D^v|}{|D|}H(D^v)$
  例如，在一个判断水果是苹果还是香蕉的数据集中，有“颜色”这个属性（红、绿）。若红色样本中苹果占比高，绿色样本中香蕉占比高，通过这个属性划分数据集后纯度提升，信息增益较大。
- 构建树时，从根节点开始，计算每个特征的信息增益，选择信息增益最大的特征作为当前节点的划分特征。对于划分后的子集，重复此步骤，直到满足停止条件（如所有样本属于同一类别、没有可用于划分的特征或子集样本数量小于阈值）。
应用场景
- 适用于处理离散型特征的分类问题。例如，在文本分类中，根据文章中的词汇（离散特征）判断文章所属类别（如体育类、科技类）。
优点
- 算法简单易懂，容易实现。计算信息熵和信息增益的概念直观，能够很好地处理离散特征。
- 对小规模数据表现良好，能快速构建决策树。
缺点
- 倾向于选择取值较多的属性，可能导致过拟合。例如，一个特征有很多不同的值，每个值对应的类别比较单一，这个特征会被优先选择，但可能只是巧合，对新数据的泛化能力差。
- 只能处理离散型属性，无法直接处理连续型属性。

二、C4.5算法

原理
- 信息增益比（Gain Ratio）：为了克服ID3算法倾向于选择取值较多属性的问题，C4.5算法引入信息增益比。首先计算属性 $a$ 的固有值 $H_a(D)$ ：
  $Ha(D)=−∑v=1V∣Dv∣∣D∣log⁡2∣Dv∣∣D∣H_a(D)=-\sum_{v = 1}^{V}\frac{|D^v|}{|D|}\log_2\frac{|D^v|}{|D|}$
  信息增益比 $g_R(D,a)$ 计算公式为：
  $gR(D,a)=g(D,a)Ha(D)g_R(D,a)=\frac{g(D,a)}{H_a(D)}$
  例如，在一个植物分类数据集中，有一个特征“叶子形状”有多种取值。通过计算信息增益比，可以更平衡地考虑这个特征的划分效果。
- 树的构建过程与ID3类似，从根节点开始，计算每个特征的信息增益比，选择信息增益比最大的特征作为划分特征，在划分后的子集上重复此步骤，直到满足停止条件。
应用场景
- 同ID3一样，主要用于分类问题，尤其在处理离散型特征的分类任务时表现出色。例如，在医疗诊断中，根据患者的症状（离散特征）判断疾病类型。
优点
- 克服了ID3算法对取值较多属性的偏好，使得决策树的构建更加合理。
- 能够处理离散型和连续型属性。对于连续型属性，先将其离散化，再进行处理。
缺点
- 计算信息增益比相对复杂，算法效率比ID3稍低。
- 连续型属性的离散化过程可能会丢失信息，影响决策树的性能。

三、CART算法（分类与回归树）

原理 - 分类任务
- 基尼指数（Gini Index）：用于衡量数据集的纯度。对于数据集 $D$ ，基尼指数 $G ini (D)$ 计算公式为：
  $Gini(D)=∑k=1npk(1−pk)=1−∑k=1npk2Gini(D)=\sum_{k = 1}^{n}p_k(1 - p_k)=1 - \sum_{k = 1}^{n}p_k^2$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

rubyw 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。