决策树——CART算法

决策树——CART算法

CART(Classification and Regression Tree)算法是一种构造决策树的算法。它是以基尼指数作为选择划分属性的评价标准,与信息熵类似,基尼指数越小意味着数据的纯度越高

1.基尼值

基尼值定义为:
在这里插入图片描述

其中:
D —— 样本集合
Pk —— 第k类样本所占比例(k取1,2,…,|y|)

基尼值代表了从样本集合中随机选取两个样本属于不同类别的概率,换句话说我们希望这个概率应该是越小越好,因为越小取到相同类别的概率就越大,数据也就更纯净

2.基尼指数

基尼指数定义为:
在这里插入图片描述

其中:
a —— 样本中的一个属性
D —— 样本集合
Dv ——实际属性值v对应的样本集合
V —— 属性a对应的实际属性值个数
v —— 某一个实际属性值计数
Gini(D) —— D的基尼值

基尼指数代表样本集合选择一个属性划分后纯度的大小,基尼指数越小数据就越纯净,选择该属性作为划分依据就越好。

我们最终无论通过CART分类树还是回归树都要找寻一个最小的基尼指数。

在这里插入图片描述
其中:
a* —— 最小基尼指数对应的属性
A —— 所有候选的属性

参考文献:周志华.机器学习[M].北京:清华大学出版社,2016.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值