决策树CART

本文详细介绍了CART决策树算法,从分类树和回归树的概念出发,讲解了基尼系数及其在决策树节点划分中的作用。通过计算不同属性的基尼系数,选取最优属性作为节点划分标准,并通过实例展示了如何构建决策树。最后,给出了完整的决策树结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树CART


天气 温度 湿度 刮风 是否打篮球
小雨
小雨
晴天
阴天

相关概念阐述

什么是分类树,什么是回归树

    以上面的表格数据为例

    如果我构造了一颗决策树,想要基于数据判断这个人的职业身份,这个就属于分类树

    如果我构造一颗决策树,给定数据,想要预测这个人的年龄,那就属于回归树

基尼系数

    基尼系数在经济学中用来衡量一个国家收入差距的常用指标.当基尼指数大于0.4的时候,说明财富差异悬殊.基尼系数在0.2-0.4之间说明分配合理,财富差距不大.扩展阅读下基尼系数

    基尼系数本身反应了样本的不确定度.当基尼系数越小的时候,说明样本之间的差异性小,不确定程度低.

    CART算法在构造分类树的时候,会选择基尼系数最小的属性作为属性的划分.

    基尼系数的计算公式如下:

Gini = 1 – Σ (Pi)2 for i=1 to number of classes

举例说明

    这里结合下面3个链接进行说明,在参考链接3中有个非常好的举例说明,如果看我的这个还不是太清楚的话,可以去看链接中,这个不用图说明,没有他的形象

根节点的选择

    在上面的列表中有四个属性:天气,温度,湿度,刮风.需要先计算出这四个属性的基尼系数

天气的基尼系数计算

    其数据表格如下:

天气状态 打篮球数量 不打篮球数量 总数
1 2 3
1 1 2
小雨 1 1 2
  • Gini(天气=晴)=1 - (1/3)^2 - (2/3)^2 = 1 - 1/9 - 4/9 = 4/9
  • Gini(天气=阴)=1 - (1/2)^2 - (1/2)^2 = 1 - 1/4 - 1/4 = 0.5
  • Gini(天气=小雨)=1 - (1/2)^2 - (1/2)^2 = 1 - 1/4 - 1/4 = 0.5

    CART是个二叉树,需要对属性进行再次的划分,其有下面三种组合

  • Gini(天气=晴阴)=(3/5) * 4/9 + (2/5)*0.5 = 4/15 + 1/5 = 7/15 ~ 0.46666666666
  • Gini(天气=晴小雨)=(3/5) * 4/9 + (2/5)*0.5 = 7/15 ~ 0.4666666
  • Gini(天气=阴小雨)=(2/4)*0.5 + (2/4)*0.5 = 0.500000000
温度的基尼系数计算

    其数据表格如下:

温度状态 打篮球数量 不打篮球数量 总数
2 2 4
1 1 2
0 1 1
  • Gini(温度=高)=1 - (2/4)^2 - (2/4)^2 = 1 - 1/4 - 1/4 = 0.5
  • Gini(温度=中)=1 - (1/2)^2 - (1/2)^2 = 1 - 1/4 - 1/4 = 0.5
  • Gini(温度=低)=1 - (0/1)^2 - (1/1)^2 = 1 - 0 - 1 = 0

    CART是个二叉树,需要对属性进行再次的划分,其有下面三种组合

  • Gini(温度=高中)=(4/6)*0.5 + (2/6)*0.5 = 1/2 ~ 0.50000000
  • Gini(温度=高低)=(4/5)*0.5 + (1/5)*0 = 2/5 ~ 0.40000000
  • Gini(温度=中低)=(2/3)*0.5 + (1/3)*0 = 1/3 ~ 0.33333333
湿度的基尼系数计算

    其数据表格如下:

湿度状态 打篮球数量 不打篮球数量 总数
2 2 4
2 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值