一、决策树算法简介
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。
决策树:
- 是一种树形结构,本质是一颗由多个判断节点组成的树
- 其中每个内部节点表示一个属性上的判断
- 每个分支代表一个判断结果的输出
- 最后每个叶节点代表一种分类结果
怎么理解这句话?通过一个对话例子

想一想这个女生为什么把年龄放在最上面判断!!!!!!!!!
上面案例是通过通过定性的主观意识,把年龄放到最上面,那么如果需要对这一过程进行量化,该如何处理呢?
此时需要用到信息论中的知识:信息熵,信息增益
二、决策树分类原理
2.1 熵
2.1.1 概念
物理学上,熵 Entropy 是“混乱”程度的量度

系统越有序,熵值越低;系统越混乱或者分散,熵值越高。
1948年香农提出了信息熵(Entropy)的概念。
- 信息理论:
1、从信息的完整性上进行的描述:
当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。
2、从信息的有序性上进的的描述:
当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。
"信息熵" (information entropy)是度量样本集合纯度最常用的一种指标。
假定当前样本集合 D 中第 k 类样本所占的比例为 p (k = 1, 2,. . . , |y|) ,

其中:Ent(D) 的值越小,则 D 的纯度越高.
2.1.2 案例

答案:

2.2 决策树的划分依据----信息增益
2.2.1 概念
信息增益:以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。
因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。
信息增益 = entroy(前) - entroy(后)
注:信息增益表示得知特征X的信息而使得类Y的信息熵减少的程度
- 定义与公式
假定离散属性a有 V 个可能的取值:

假设离散属性性别有2(男,女)个可能的取值
若使用a来对样本集 D 进行划分,则会产生 V 个分支结点,
其中第v个分支结点包含了 D 中所有在属性a上取值为a 的样本,记为D . 我们可根据前面给出的信息熵公式计算出D的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重

文章介绍了决策树算法的基本概念,包括其树形结构和分类原理。决策树通过信息熵来度量数据集的纯度,信息增益作为划分依据选择最佳特征。信息增益率解决了信息增益对多值属性的偏好问题,而基尼指数则是CART决策树算法中的重要指标。文章通过案例展示了如何使用这些概念来构建和优化决策树。
最低0.47元/天 解锁文章
649

被折叠的 条评论
为什么被折叠?



