决策树算法与具体实例

最新推荐文章于 2025-07-01 11:11:30 发布

鲜-橙

最新推荐文章于 2025-07-01 11:11:30 发布

阅读量980

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习基础算法文章标签：决策树机器学习人工智能

本文链接：https://blog.youkuaiyun.com/qq_30172585/article/details/79638527

本文介绍了决策树算法的基本原理，包括ID3、C4.5和CART三种算法，并通过实例展示了如何使用决策树进行数据划分。同时，文章探讨了决策树的剪枝优化方法，以提高模型的泛化能力，并分析了不同剪枝阀值对模型性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

任务简介

如图所示，数据集的X是一系列的属性值，Y是1或者-1，用决策树算法训练这样的分类模型，对于测试集这个分类模型能在Accuracy(准确率)这个指标上能尽可能的高

算法原理

通过选择属性对数据进行划分，使得划分之后的数据的不确定性得到下降，其中的“不确定性”以信息增益或基尼指数，或是有所惩罚的信息增益比来衡量。经过多层的划分，使得数据的不确定性降到最低，从而使得其在训练集上的正确率达到最高，这就是最原始的决策树。

-----------------------------------------------例子------------------------------------------------
假设有这么一个人群，其年龄及患病情况如下：
这里写图片描述
单纯看患病情况的话其不确定性很大，通俗的讲就是随便从中选出一个人而不告诉你任何其他信息，要猜其是否患病，猜中的可能性很小（P = 1/2）。
现在如果使用年龄这个属性，将其划分为两类，见下图

可以看到，划分完之后不确定性下降了，通俗的讲就是随便从中选出一个人然后告诉你他的年龄，要猜其是否患病，猜中的可能性和之前相比提高了(P = 3/4)。这样我们就通过了年龄这个属性来提高了猜测其标签（是否患病）的能力。当然，这只是一层，如果还有其他属性（例如性别），那么同样的还可以将这里划分完的数据继续划分，以进一步降低不确定性 ***-----------------------------------------------例子------------------------------------------------***

其中，选择属性的算法有以下三种，分别介绍一下原理:

1) ID3

算法度量标准是原始的熵与条件熵之差。也就是原来数据的不确定性与划分完之后的数据不确定性之间的差值
$g (D, A) = H (D) - H (D ∣ A)$
熵是用于表示随机变量不确定性的度量。例如下图表示当随机变量只取两个值（例如1,0）的时候，熵随着p（p = P（x=1））的变化情况。
$-\sum_{i=1}^n p_ilog_2(p_i)$
理解为：当告知p=1/2的时候，最难猜中一个随机变量是取什么值；当告知p=0（p=1）的时候，最容易猜中取什么值(p=0的话猜0，p=1的话猜1)