决策树算法

本文介绍了决策树算法的基本思想,探讨了不同决策树算法(如ID3、C4.5及CART)中如何通过信息增益、信息增益率及基尼系数来衡量数据集的不纯度,并给出了具体的例子来说明如何利用这些指标进行决策树的构建。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树的思想:就是寻找最纯净的划分方法。

  1. 纯度的另一面就是不纯度。不纯度的选取有很多种方法,每种方法形成了不同的决策树算法。
  2. ID3算法使用了信息增益 作为不纯度
    C4.5算法使用了信息增益率作为不纯度。
    CART算法使用了基尼系数作为不纯度(分类的枝叶只有两个,形成了二叉树)
    决策树要达到最纯净的划分的目标要干两件事,建树和剪枝。

这里写图片描述

上图是 根据14条记录,分析是否买电脑的事件。

1.假设不按任何属性划分,分析原始数据的信息熵 : info(D)
买电脑的有 9个,不买的有 5个
所以info(D) :
这里写图片描述

2.按照年龄划分,
youth 有5个 ,买的有2个 不买的有3个
middle_aged 有4个,买的有4个 ,不买的有0个
senior 有5个,买的有3个,不买的有2个

所以
这里写图片描述

所以 age 的信息获取量是:
这里写图片描述

这里写图片描述

这里写图片描述

总结:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值