决策树算法通俗讲解

本文介绍了决策树算法的基本原理,包括如何根据信息增益选择特征和香农熵来衡量数据集的混乱程度。通过具体例子展示了如何构造决策树,并讨论了如何使用Python实现和存储决策树。最后提到了评估决策树算法效率的方法,即使用交叉验证计算分类正确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        决策树就是先把一堆数据依次按照某一个条件(特征)划分子集,构建成树,然后来一条新的数据,让新数据按照构造树时的条件一一比较,直到找到叶子节点确定类别。

(一)构造决策树

        我们知道每一条数据中都包含几个特征(值),决策树需要根据某一条件来判断划分子集。那么好几个特征中我们选择哪个特征作为决策对象才会有好的划分效果呢?首先我们要找到决定性的特征。还有一个问题,怎么样就算好的划分效果呢?

        这里我们用到了一个理论概念“信息增益”。构造决策树的目的是:将同一类别数据放到一个子集中,将无序的数据变得更加有序。信息增益就是:在划分数据集之前之后信息发生的变化。获得信息增益最高的特征就是最好的特征。

        下一个问题:怎么度量信息增益值,另一个概念出来了:香农熵。我们要计算所有类别所有可能包含的信息期望值,通过下面的香农熵公式:

         

好了,举个例子,有数据集

dataset = [[1, 1, ‘yes’],

           

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值