决策树中的熵、信息增益、信息增益比以及基尼指数

本文详细介绍了决策树算法中用于选择最优特征的三种方法:信息增益、信息增益比和基尼指数。通过实例展示了如何计算这些指标,并解释了为何选择具有最小Gini系数或最大信息增益的特征。讨论了不同方法的优缺点,以帮助构建更加有序的决策树。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树中的熵、信息增益、信息增益比以及基尼指数

决策树是机器学习的一种常用算法,可解释性强,可提取规则。决策时就是学习数据内部规律,找到数据之间的联系。决策树的构建就是递归选择最优特征,并根据该特征对数据进行分割,但是决策树是怎么选择最优的分裂属性呢?

决策树特征的选择有三种方法:信息增益、信息增益比、Gini系数。

为了演示上面三种分裂属性的选择,我们选用一个例子来加以说明:通过数据来判断该生物是否为鱼类。有如下数据集。

名称 用鳃呼吸 有无鱼鳍 是否为鱼
鲨鱼 1 1 1
鲫鱼 1 1 1
河蚌 1 0 0
0 1 0
海豚 0 1 0

Gini系数

Gini系数的计算公式如下:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值