机器学习实战（二）决策树DT（Decision Tree、ID3算法）

最新推荐文章于 2024-04-30 15:43:43 发布

原创

最新推荐文章于 2024-04-30 15:43:43 发布 · 1.1k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #决策树 #ID3 #信息增益 #Decision Tree

目录

1. 信息增益（ID3）

2. 决策树（Decision Tree）

3. 实战案例

3.1. 隐形眼镜案例

3.2. 存储决策树

3.3. 决策树画图表示

学习完机器学习实战的决策树，简单的做个笔记。文中部分描述属于个人消化后的理解，仅供参考。

所有代码和数据可以访问我的 github

如果这篇文章对你有一点小小的帮助，请给个关注喔~我会非常开心的~

0. 前言

决策树（Decision Tree）的执行流程很好理解，如下图所示（图源：西瓜书），在树上的每一个结点进行判断，选择分支，直到走到叶子结点，得出分类：

优点：计算复杂度不高、输出结果易于理解、对缺失值不敏感
缺点：可能会产生过拟合
适用数据类型：数值型和标称型（数值型数据需要离散化）

决策树构建中，目标就是找到当前哪个特征在划分数据时起到决定性作用，划分数据有多种办法，如信息增益（ID3）、信息增益率（C4.5）、基尼系数（CART），本篇主要介绍信息增益（ID3算法）。

1. 信息增益（ID3）

首先，介绍香农熵（entropy），熵定义为信息的期望值，熵越高，说明信息的混乱程度越高：

$Ent(D)=-\sum_{k=1}^{\left|\gamma \right|}p(k)\log_{2}p(k)$

其中， $D$ 表示数据集， $k$ 表示数据集中的每一个类别， $p(k)$ 表示这个属于类别的数据占所有数据的比例。

信息增益（information gain）定义为原始的熵减去当前的熵，增益越大，说明当前熵越小，说明数据混乱程度越小：

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{\left|D^v\right|}{\left|D\right|}Ent(D^v)$

其中， $V$ 表示按照此特征划分的子集数量， $v$ 表示第 $v$ 个子集， $Ent(D^v)$ 表示子集的信息熵，

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。