目录
1 决策树简介
决策树是一种分类算法,是通过对数据的处理,利用归纳算法,生成一些列规则,类似于if-else,然后根据这些规则对新的数据做决策。本质上就是学习规则,在利用规则做分类的过程。具体来说,就是首先根据数据的特征,决定每个树的节点使用哪一个特征做为分类依据,以及使用这个特征的哪个指作为分类界限,这就是一棵树的构造过程。
决策树的优点:
- 推理过程容易理解,决策过程可以表示成if-else
- 推理过程完全依赖于属性变量的取值特点
- 可自动忽略目标变量没有贡献 的属性变量,也为判断属性变量的重要性、减少变量数目提供参考。
2 前置信息论知识
2.1 熵的概念
熵是对信息不确定程度的度量, 信息越不确定,熵就越大,反之熵就越小。熵的数学解释:
假设是一个取有限值的随机变量,其概率分布为:
则对于随机变量的熵的定义为:
其中代表
的
种不同的离散取值,
代表了
取值为
的概率,对数以2为底或者以自然地鼠e为底,这时熵的单位称作比特(bit)或纳特(nat),熵只依赖于