决策树算法详解-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_43729822/article/details/105059249

决策树(decision tree)是一种基本分类与回归方法。本章主要讨论分类的决策树
决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程，它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上训练数据，根据损失函数最小化的原则建立决策树模型。
预测时，对新的数据，利用决策树模型进行分类。决策树的学习通常包含三个步骤：
- 特征选择
- 决策树的生成
- 决策树的修剪

定义：
- 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点有两种类型：内部结点（internal node）和叶节点（leaf npde）,内部结点表示一个特征或属性，叶节点表示一个类。
用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点；这时，每一个结点对应着该特征的一个取值。如此递归地对实例进行测试，直到到达叶节点，最后将实例分到叶节点的类中。

https://zhuanlan.zhihu.com/p/26486223
多少信息用信息量来衡量，我们接受的信息量跟具体发生的事件有关
信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如湖南产生的地震了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起来了（肯定发生嘛，没什么信息量）。这很好理解
因此一个具体的事件的信息量应该是随着其发生概率而递减，且不能为负
如果我们有两个不相关的事件x和y,那么我们观察到两个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和，即：h(x,y)=h(x)+h(y)
由于x,y是两个不相关的事件，那么满足p(x,y)=p(x)*p(y)
我们很容易看出h(x)一定与P(x)的对数有关（因为只有对数形式的真值相乘之后，能够对应对数相加形式，可以试试），因此信息量公式如下：
- h(x)=-log2P(x)
- 两个疑问？
- 为什么有一个负号：其中，负号是为了确保一定时整数或者0，总不能为负数吧
- 为什么底数为2：这是因为，我们只需要信息满足低概率事件x对应高的信息量。那么对数的选择是任意的，我们只是遵循信息论的普遍传统，使用2作为对数的低

正式引出信息熵
信息的度量是一个具体的事件发生所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望————考虑该随机变量的所有可能取值，即所有可能发生事件所带来的的信息量的期望，即：
另外信息熵还可以作为一个系统复杂程度的度量，如果系统越复杂，出现不同情况的种类越多，那么他的信息熵是比较大的。
如果一个系统越简单，出现情况种类很少（极端情况为1中情况，对应的概率为1，那么对应的信息熵为0），此时的信息熵较小。