2021-11-28 决策树(一)

本文介绍了决策树的基本概念,包括其应用、形态和学习过程。在学习决策树时,通常采用贪心算法来寻找局部最优解。此外,文章讨论了不确定性度量——信息熵和信息增益,信息增益用于衡量特征对分类不确定性的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第七章——决策树(一)

7.1 理解决策树
7.2 不确定性及信息增益

7.1 理解决策树

1、决策树的应用

  • 决策树是一种基本的分类与回归的方法,它是几个经典集成模型(随机森林,提升树)的基础。
    在这里插入图片描述

2、决策树的形态与决策边界

  • 决策树由节点(跟节点、叶节点)和边组成。
  • 从数据中得到决策树,需要学习到三样东西:树的形状、每一个决策的阈值θ、叶节点的值。

3、决策树的学习

  • 在学习树的结构时会遇到NP-hard问题,一般般对于这类的问题是没有⼀个很好的⽅式来求出全局最优解的。而经典的近似算法——“贪心算法”(信息增益),每次只考虑局部最好的情况,所以⼀般带来的是相对最好的解决⽅案。

7.2 不确定性及信息增益

1、好的节点的特征

  • 想要得到最优模型,节点分类效果要好。要如何判定分类效果好?通过信息熵来确定。

2、信息熵——表示不确定性

  • 好的节点特征可以减少不确定性,不确定性用信息熵(entropy)表示。
  • 信息熵的定义:H(X)=− ∑ Pi logPi ,i=1,2,3…
  • 信息熵越⼤,说明不确定性越⼤,信息熵越⼩,说明不确定性是越⼩的。

3、信息增益——不确定性的减少

  • 不确定性的减少也称作信息增益(information gain)
  • 信息增益定义:IG (T, a) = H (T) - H (T | a)
    公式解析:熵 - 条件熵。表示在⼀个条件下,信息不确定性减少的程度。

下一篇《决策树(二)》将会介绍决策树的过拟合对于连续变量和回归的决策树

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值