机器学习之决策树CART算法

努力再努力1

于 2022-05-10 20:32:40 发布

阅读量1.1w

点赞数 18

分类专栏：机器学习文章标签：机器学习决策树算法 python sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_69435474/article/details/124689705

版权

接上期：

文章目录

一、理论知识
二、python实战

一、理论知识

CART算法是给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树，内部节点取值为“是”或“否”。这样的决策树等价于递归地二分每个特征，将特征空间划分为有限个单元，并在这些单元上确定预测的概率分布即输入给定的条件下输出的条件概率分布。

1.0、特征选择：基尼指数

分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。
分类问题中假设有K个类，样本点属于第k类的概率为 $p_k$ ，则概率分布的基尼指数为
$Gini(p)=\sum^K_{k=1}p_k(1-p_k)=1-\sum^K_{k=1}p_k^2$
对于二分类问题，若样本点属于第1个类的概率为p，则概率分布的基尼指数为 $G i n i (p) = 2 p (1 - p)$
如果样本集合D根据特征A是否取某一可能值a被分割为 $D_1$ 和 $D_2$ 两部分，即 $D_1={(x,y)\in D|A=a}，D_2=D-D_1$ ，则在特征A的条件下，集合D的基尼指数定义为
$Gini(D,A)=\frac{|D_1|} {|D|} Gini(D_1)+\frac{|D_2|} {|D|}Gini(D_2)$
基尼指数 $G i n i (D)$ 表示集合D的不确定性，基尼指数 $G i n i (D, A)$ 表示经 $A = a$ 分割后集合D的不确定性。基尼系数越大，样本集合的不确定性也越大，这一点与熵相似。

1.1、决策树的生成

CART生成算法
- 输入：训练数据集D，停止计算的条件
- 输出： CART决策树
- 计算现有特征对该数据集的基尼指数。根据特征A=a的测试为“是”或“否”，将数据集划分为两个子集

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。