决策树

本文介绍了决策树的基本概念,包括其在分类与回归任务中的应用。详细解释了ID3算法的工作流程,包括熵的计算、信息增益的评估以及如何选择最佳分割点。此外还提到了决策树的剪枝技术,旨在防止过拟合。

决策树可以做回归和分类。

决策树总体思想和步骤(离散的,ID3):

1、先计算每个样本的随机变量的熵值。

2、再计算信息增益,也就是样本随机变量的熵值与对应样本随机变量的概率相乘再加和。

3、遍历所有的样本每种随机变量的信息增益,排序,根据最大开始进行分裂。

决策树的重点是分裂的随机变量是哪个。

1、先从树来说明。在决策树中,有3个组成:1、根节点:第一个选择点。2、非叶子节点,中间过程。3、叶子结点:最终的决策的结果。



2, 在说明什么是熵,熵在本科的信息论中有定义,是信息论中非常重要的理论,熵是表示随机变量不确定性的度量,概率大的熵小,可以理解为概率与熵是成反比的,如果一个样本特性都是固定一个值,那熵就是0,因为信息很稳定,不变的。计算熵的公式如下:


信息增益表示特征x使得类y的不确定性减少的程度。计算方式是两个熵的差,一个是系统的熵,一个是一个变量的熵,系统熵减去随机变量的熵,看哪个变量的熵变化最大,就是分割点(ID3)。

举例:


14天打球情况,根据随机变量分类四类:



这是系统的熵。

再计算一个随机变量的熵outlook:

先计算outlook中变量每个可能性的熵值


再计算每个可能性的概率值:


再相对应相乘:


总熵-outlook熵=信息增益=0.247


每个随机变量的增益进行排序,从高的到低的进行分裂。

3,判断分割点的还有几种方式。

c4.5,cart,gini系数。

连续的值用范围进行分割。

4、决策树的剪枝

预剪枝和后剪枝,解决的问题是怕过拟合。

预剪枝:限制深度(信息增益排名前几的进行分支,后面就不分割),叶子结点个数(叶子节点有几个就停止) ,叶子结点样本数(分裂到叶子节点有几个样本就不分裂了),信息增益量(到一定量就不分割了)。

后剪枝:通过一定的衡量标准


就是损失:gini系数*样本数

:是 叶子节点个数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值