决策树可以做回归和分类。
决策树总体思想和步骤(离散的,ID3):
1、先计算每个样本的随机变量的熵值。
2、再计算信息增益,也就是样本随机变量的熵值与对应样本随机变量的概率相乘再加和。
3、遍历所有的样本每种随机变量的信息增益,排序,根据最大开始进行分裂。
决策树的重点是分裂的随机变量是哪个。
1、先从树来说明。在决策树中,有3个组成:1、根节点:第一个选择点。2、非叶子节点,中间过程。3、叶子结点:最终的决策的结果。

2, 在说明什么是熵,熵在本科的信息论中有定义,是信息论中非常重要的理论,熵是表示随机变量不确定性的度量,概率大的熵小,可以理解为概率与熵是成反比的,如果一个样本特性都是固定一个值,那熵就是0,因为信息很稳定,不变的。计算熵的公式如下:

信息增益表示特征x使得类y的不确定性减少的程度。计算方式是两个熵的差,一个是系统的熵,一个是一个变量的熵,系统熵减去随机变量的熵,看哪个变量的熵变化最大,就是分割点(ID3)。
举例:

14天打球情况,根据随机变量分类四类:


这是系统的熵。
再计算一个随机变量的熵outlook:
先计算outlook中变量每个可能性的熵值

再计算每个可能性的概率值:

再相对应相乘:

总熵-outlook熵=信息增益=0.247

每个随机变量的增益进行排序,从高的到低的进行分裂。
3,判断分割点的还有几种方式。
c4.5,cart,gini系数。
连续的值用范围进行分割。
4、决策树的剪枝
预剪枝和后剪枝,解决的问题是怕过拟合。
预剪枝:限制深度(信息增益排名前几的进行分支,后面就不分割),叶子结点个数(叶子节点有几个就停止) ,叶子结点样本数(分裂到叶子节点有几个样本就不分裂了),信息增益量(到一定量就不分割了)。
后剪枝:通过一定的衡量标准

就是损失:gini系数*样本数
:是 叶子节点个数
本文介绍了决策树的基本概念,包括其在分类与回归任务中的应用。详细解释了ID3算法的工作流程,包括熵的计算、信息增益的评估以及如何选择最佳分割点。此外还提到了决策树的剪枝技术,旨在防止过拟合。
1万+

被折叠的 条评论
为什么被折叠?



