DecisionTree --- 决策树

最新推荐文章于 2023-07-07 19:54:06 发布

__静禅__

最新推荐文章于 2023-07-07 19:54:06 发布

阅读量995

点赞数

分类专栏： ------ 机器学习 Python3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Ka_Ka314/article/details/82423384

版权

一、什么是决策树

决策树是附加概率结果的一个树状的决策图，是直观的运用统计概率分析的图法。机器学习中决策树是一个预测模型，它表示对象属性和对象值之间的一种映射，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类分布，树的最顶层是根结点。

二、决策树案例

案例：

决策树：

三、决策树建立

决策树的建立首先要确定选择特征，选择一个合适的特征作为判断节点，可以快速的分类，减少决策树的深度。决策树的目标就是把数据集按对应的类标签进行分类。最理想的情况是，通过特征的选择能把不同类别的数据集贴上对应类标签。特征选择的目标使得分类后的数据集比较纯。如何衡量一个数据集纯度，这里就需要引入数据纯度函数。

3.1、信息增益

信息熵表示的是不确定度。均匀分布时，不确定度最大，此时熵就最大。当选择某个特征对数据集进行分类时，分类后的数据集信息熵会比分类前的小，其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。

3.1.1、公式讲解：

（1）假设在样本数据集 D 中，混有 c 种类别的数据。构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点。在数据集中，可以计算出该数据中的信息熵：

$Info(D) = -\sum_{i-1}^{c}p_{i}log_{2}(p_{i})$

其中 D 表示训练数据集，c 表示数据类别数，Pi 表示类别 i 样本数量占所有样本的比例。

（2）对应数据集 D，选择特征 A 作为决策树判断节点时，在特征 A 作用后的信息熵的为 Info(D)，计算如下：

$Info_{A}(D) = -\sum_{j-1}^{k}\frac{D_{j}}{D}\times Info(D_{j})$

其中 k 表示样本 D 被分为 k 个部分。

（3）信息增益表示数据集 D 在特征 A 的作用后，其信息熵减少的值。公式如下：

$Gain(A) = Info(D) - Info_{A}(D)$

对于决策树节点最合适的特征选择，就是 Gain(A) 值最大的特征。

3.1.2、结合案例讲解：

（1）根据上述提到的案例进行对应分析，首先我们需要确定的是根节点，那么根据上述案例可以获得&#x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。