决策树（一）：分类树原理和python实现

最新推荐文章于 2025-03-07 11:42:02 发布

i96jie

最新推荐文章于 2025-03-07 11:42:02 发布

阅读量7.2k

点赞数 4

分类专栏：机器学习 python 文章标签：决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/i96jie/article/details/81517207

版权

本文介绍了决策树的学习过程，包括特征选择、决策树生成（ID3和C4.5算法），并讨论了信息熵、条件熵、信息增益和信息增益比等关键概念。同时，给出了用Python实现决策树的例子。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树原理

决策树（decision tree）是机器学习中常用的一种分类和回归方法。决策树学习通常包含三个步骤：特征选择、决策树生成、决策树修剪。在本文中主要讨论分类决策树。

分类决策树的模型是一个树形结构，由结点（node）和有向边（directed edge）组成，其中结点又分为：内部结点和叶结点。内部结点表示一个特征（图中的黑色圆），而叶结点表示一个类（黑色方框）。

其中根结点包含了整个数据集，通过在数据集中找到一个最优特征，也就是最优划分属性，通过最优划分属性，将数据集分为若干子集，划分到子节点中。很明显，决策树的生成是一个递归过程，而要使递归返回，则需要：

当前结点样本属于同一类
当前结点样本为空
当前属性为空，或是所有样本在所有属性集上取值相同

所以，分类决策树的大致流程如下所示：

其中，最关键的就是如何去寻找这个最优特征。

信息增益、信息增益比

信息熵

在信息论和概率统计中，熵（entropy）是表示随机变量不确定的度量。

假设X是一个有限个值的随机离散变量，概率分布是：

$P(X =x_i)=p_i$ $(i = 1,2,3,\cdot \cdot \cdot )$

则将其熵定义为：

$H(X) = -\sum_{i=1}^{n}p_ilogp_i$

其中若 p_i = 0 ，则定义 0log0=0 。可以看出，熵只与X的分布有关，所以也可写为：

$H(p) = -\sum_{i=1}^{n}p_ilogp_i$

熵越大，随机变量的不确定性也就越大，举个栗子：

当随机变量只有两个值时，熵为：

H(p) = -plog_2p-(1-p)log_2(1-p)

作熵随概率变化的曲线图:

可以看出，当概率为0或者1时，熵为0，变量完全没有不确定性，而当p为0.5时，熵最大，随机变量不确定性最大。

条件熵

设随机变量（X,Y），其联合概率分布为

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。