连续与缺失值-----决策树

在决策树构建过程中,连续值通常通过二分法进行离散化处理,选择信息增益最大的阈值进行划分。对于缺失值,可以删除少量缺失的样本,或者使用平均值、中位数等方法填充,再进行建模。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

连续与缺失值

决策树给我们的印象更多是处理离散属性,但是在实际的任务中也会遇到连续属性,或者属性中有缺失值的情况,那么我们对于这种数据我们如何进行处理。

1. 连续值处理

因为连续属性的可取值数目不再有限,因此,不能直接根据连续属性的可取值来对结点进行划分,否则,这样的决策树毫无泛化能力。所以,我们将连续属性进行离散化。最简单的策略是采用“二分法”,C4.5决策树算法中也是使用的这种机制。

给定样本集D和连续属性a,假定a在D上出现了n个不同的取值,我们将这些值从小到大进行排序,记为\{a^1,a^2,...,a^n\},然后使用二分法进行划分。首先我们选择a^1作为我们当前划分的阈值,将在属性a上值小于等于a^1的样本分为一类,大于a^1的分为另外一类,这样就产生了分支,然后再计算这样划分之后的信息增益;接下来重新选择

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值