西瓜书笔记4.1-4.2

决策树是一种递归的分类方法,通过选取最优属性进行数据划分。从根节点开始,依据信息熵和信息增益选择最佳特征,不断分裂子集直到所有数据被正确分类。信息熵衡量样本纯度,信息增益用于比较不同属性的分类效果。通过这个过程,最终生成一个能够对未知数据进行预测的决策树模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树:
通过一层层的属性判定,对当前判定数据进行分类的一种机器学习方法。
在这里插入图片描述
决策树的构造:

决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。

1) 开始:构建根节点,将所有训练数据都放在根节点,选择一个最优特征,按着这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。

2) 如果这些子集已经能够被基本正确分类,那么构建叶节点,并将这些子集分到所对应的叶节点去。

3)如果还有子集不能够被正确的分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的节点,如果递归进行,直至所有训练数据子集被基本正确的分类,或者没有合适的特征为止。

4)每个子集都被分到叶节点上,即都有了明确的类,这样就生成了一颗决策树。
在这里插入图片描述
每层属性的选择方法:
在了解选择方法前,我们需要先了解几个定义:

  1. 纯度(purity):随着划分的进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,也就是样本的“纯度”尽可能的高。
  2. 信息熵(information entropy):度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为(k=1,2,3…),则D的信息熵定义为:在这里插入图片描述
    Ent(D)的值越小,则D的纯度越高。
  3. 信息增益(information gain):使用属性a来进行划分所获得的“纯度”,信息增益越大,则纯度越大。
    在这里插入图片描述
    根据以上定义,以西瓜书上的例子引出选择属性的方法:在这里插入图片描述
    在决策树学习开始时,根节点包含D中的所有样例,其中正例p1=8/17,反例p2=9/17,于是根据信息熵的公式计算根节点的信息熵:在这里插入图片描述
    在这里插入图片描述
    则属性“色泽”的信息增益为在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值