Chapter 3 决策树学习

本文介绍了决策树学习,包括其适用问题、ID3算法的工作原理、信息增益的概念,以及过拟合的原因。决策树学习适合处理离散目标函数,通过信息增益选择最佳属性作为分裂依据,但易受局部最优影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第3章 决策树学习

3.1 决策树学习的适用问题

决策树学习是一种逼近离散值目标函数的方法,对噪声数据有很好的鲁棒性且能够学习析取表达式。在这种方法中学习到的函数被表示为一棵决策树,它最合适具有以下特征的问题:

  • 实例是由“属性-值”对表示的;
  • 目标函数具有离散的输出值;
  • 可能需要析取的描述(Disjunctive Description);
  • 训练数据集可以包含错误;
  • 训练数据可以包含缺少属性值的实例。

3.2 基本的决策树学习算法(ID3算法)

  1. 主要思想:通过自顶向下构造决策树来进行学习。使用统计测试来确定每一个实例属性单独分类训练样例的能力,分类能力最好的属性选作树的根节点的测试。然后,以根节点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支。重复整个过程,用每个分支节点关联的训练样例来选取在该点被测试的最佳属性。这形成了对合格决策树的贪婪搜索(Greedy Search)。
  2. 信息增益(Information Gain)— 衡量属性价值的定量标准
    • 熵(Entropy):刻画任意样例集的纯度(Purity)。给定关于目标概念的正反样例的样例集 S,那么 S 相对这个布尔型分类的熵为:
      Entropy(S)=p+log2p+plog2p

      其中p+S中正例的比例,pS中反例的比例,并规定0log20=0。 更一般的,如果目标属性有c个不同的值,那么样例集S相对于c个状态的分类的熵定义为:
      Entropy(S)=i=1cpilog2pi
    • 信息增益:一个属性的信息增益就是由于使用这个属性分割样例集而导致的期望熵降低。属性 A 相对样例集 S 的信息增益定义为:
      Gain(S,A)Entropy(S)vValues(A)|Sv||S|Entropy(Sv)

其中,Sv={sS|A(s)=v}
3. 优势与不足:
通过观察ID3的搜索空间和搜索策略,可知,
* 假设空间包含所有的决策树,避免了搜索不完整的假设空间;
* 仅维护单一的当前假设,失去了表示所有一致假设所带来的优势;
* 搜索中不进行回溯,易收敛到局部最优;
* 每一步搜索都使用当前所有训练样例,大大降低了对个别训练样例错误的敏感性。
4. 决策树学习的归纳偏置
近似的ID3算法的归纳偏置:较短的树比较长的树优先;高信息增益的属性更靠近根节点的树优
ID3算法与Candidate-Elimination算法的归纳偏置的差异:
* ID3的搜索范围是一个完整的假设空间,但它不彻底地搜索这个空间;
* Candidate-Elimination算法的搜索范围是不完整的假设空间,但它彻底地搜索这个空间;
* ID3的归纳偏置来自它的搜索策略,Candidata-Elimination算法的归纳偏置来自于它对搜索空间的定义。
5. 优选偏置和限定偏置
* 优选偏置(搜素偏置):对某种假设胜过其他假设的一种优选,对最终可列举的假设没有硬性限制。如ID3算法。
* 限定偏置(语言偏置):对待考虑的假设有一种限定。如Candidate-Elimination算法。
通常,优选偏置比限定偏置更符合需要,因为它允许学习器工作在完整的假设空间上,保证了未知的目标函数被包含在内。一些学习系统同时包含二者,如使用LMS算法的线性回归,线性函数引入了限定偏置,LMS算法引入了优先偏置(所有可能参数值空间上的顺序搜索)。
著名的归纳偏置——奥坎姆剃刀:优先选择拟合数据的最简单的假设。

3.3 关于过拟合

  1. 过度拟合(Overfit):给定一个假设空间 H ,一个假设 hH ,如果存在其他的假设 hH ,使得在训练样例上 h 的错误率比 h 小,但在整个实例分布上 h 的错误率比 h 小,那么就说假设 h 过度拟合训练数据。
  2. 过度拟合产生的原因:
    • 训练样例含有随机错误或噪声;
    • 训练样例的数量太少,不能产生目标函数的有代表性的采样。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值