李航(统计学习方法第五章)

本文深入探讨了决策树的学习过程,包括决策树模型、特征选择、生成算法如ID3和C4.5,以及决策树剪枝和CART算法。重点介绍了信息增益和信息增益比在特征选择中的作用,以及CART算法在分类与回归树中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第五章 决策树

  • 本章讨论用于分类的决策树。

  • 可认定为if-then规则集合

  • 决策树的学习过程

    • 特征选择
    • 决策树生成
    • 决策树修剪
  • 优点

    • 模型具有可读性
    • 分类速度快
  1. 决策树基本概念
  2. ID3和C4.5介绍特征选择、决策树的生成以及决策树的修剪
  3. CART算法

5.1 决策树模型与学习

5.1.1 决策树模型

  • 定义:分类决策树是一种描述对实例进行分裂的树形结构,由节点和有向边组成。节点有两种类型:内部节点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。
  • 决策树示意图:

5.1.2 决策树与if-then规则

  • 每一个实例都被有且只有一条规则所覆盖

5.1.2 决策树与概率分布

5.1.3 决策树学习

  • 算法过程

    • 构建根节点,将所有数据集都放在根节点
    • 选择一个最优特征,按这一特征将训练数据集分割成子集,使各个子集有一个在当前条件下的最好分类。
    • 若这些子集都已经基本正确分类,那么构建叶节点,并将子集分到所对应的叶节点。
    • 否则重新选取最优特征,继续分割。直至所有训练数据集基本正确分类。
  • 易产生过拟合,需要剪枝。

5.2 特征选择

5.2.1 特征选择问题

  • 特征选择在于选取对训练数据集具有分类能力的特征,通常特征选择的标准是信息增益或信息增益比。
  • 特征选择是决定用哪个特征来划分特征空间。
  • 确定选择的准则:直观上,如果一个特征具有更好的分类能力,使得各个子集在当前条件下有最好的分类,那么就选择这个特征。信息增益可以很好的表示这一直观准则。

5.2.2 信息增益

  • 为了便于说明,先给出熵与条件熵的定义。
  • 在信息论与概率统计中马,熵是表示随机变量不确定性的度量。

设 X 是 一 个 取 有 限 个 值 的 离 散 随 机 变 量 , 其 概 率 分 布 为 : P ( X = x i ) = p i , i = 1 , 2 , . . . , n 则 随 机 变 量 X 的 熵 定 义 为 : H ( X ) = − ∑ i = 1 n p i log ⁡ p i 若 p i = 0 , 则 定 义 0 log ⁡ 0 = 0. 通 常 式 中 对 数 以 2 为 底 或 以 e 为 底 这 时 熵 的 单 位 分 别 称 作 比 特 或 纳 特 。 因 定 义 可 知 , 熵 只 依 赖 于 X 的 分 布 , 因 此 将 X 的 熵 记 作 H ( p ) , 即 : H ( p ) = − ∑ i = 1 n p i log ⁡ p i 设X是一个取有限个值的离散随机变量,其概率分布为:\\ P(X=x_i)=p_i,i=1,2,...,n\\ 则随机变量X的熵定义为:H(X)=-\sum _{i=1}^np_i\log p_i\\ 若p_i=0,则定义0\log 0=0.通常式中对数以2为底或以e为底\\ 这时熵的单位分别称作比特或纳特。因定义可知,熵只依赖于X的分布,因此将X的熵记作H(p),即:\\ H(p)=-\sum _{i=1}^np_i\log p_i XP(X=xi)=pi,i=1,2,...,nXH(X)=i=1npilogpipi=0,0log0=0.2eXXH(p)H(p)=i=1npilogpi

  • 熵越大,随机变量的不确定性就越大。
  • 证: 0 ≤ H ( p ) ≤ log ⁡ n 0\leq H(p)\leq \log n 0H(p)logn

证明:
∵   0 ≤ p i ≤ 1 , ∴   log ⁡ p i ≤ 0 , ∴   H ( p ) ≥ 0 又 均 匀 分 布 时 熵 最 大 , 取 p i = 1 n 得 H ( p ) = log ⁡ n ∴ 0 ≤ H ( p ) ≤ log ⁡ n \because\,0\leq p_i\leq 1, \therefore \,\log p_i \leq 0, \therefore\,H(p)\geq 0\\ 又均匀分布时熵最大,取p_i=\frac{1}{n}\\ 得H(p)=\log n\\ \therefore 0\leq H(p)\leq \log n 0pi1logpi0H(p)0pi=n1H(p)=logn0H(p)logn

  • 当随机变量只取两个值,如1,0时,即:

X分布为:
P ( X = 1 ) = p , P ( x = 0 ) = 1 − p , 0 ≤ p ≤ 1 熵 为 : H ( p ) = − p log ⁡ 2 p − ( 1 − p ) log ⁡ 2 ( 1 − p ) P(X=1)=p,P(x=0)=1-p,0\leq p\leq 1\\ 熵为:H(p)=-p\log_2p-(1-p)\log_2(1-p) P(X=1)=p,P(x=0)=1p,0p1H(p)=plog2p(1p)log2(1p)
此时熵与概率p的变化曲线如图所示:

当p=0或p=1时,熵等于0,随机变量完全没有不确定性。当p=0.5时,熵最大。
  • 设有随机变量 ( X , Y ) (X,Y) (X,Y),其联合概率分布为

P ( X = x i , Y = y i ) = p i j ; i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , m P(X=x_i,Y=y_i)=p_{ij};i=1,2,...,n;j=1,2,...,m P(X=xi,Y=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值