连续与缺失值-----决策树

最新推荐文章于 2023-02-22 16:49:41 发布

原创

最新推荐文章于 2023-02-22 16:49:41 发布 · 889 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #数据挖掘

在决策树构建过程中，连续值通常通过二分法进行离散化处理，选择信息增益最大的阈值进行划分。对于缺失值，可以删除少量缺失的样本，或者使用平均值、中位数等方法填充，再进行建模。

连续与缺失值

决策树给我们的印象更多是处理离散属性，但是在实际的任务中也会遇到连续属性，或者属性中有缺失值的情况，那么我们对于这种数据我们如何进行处理。

1. 连续值处理

因为连续属性的可取值数目不再有限，因此，不能直接根据连续属性的可取值来对结点进行划分，否则，这样的决策树毫无泛化能力。所以，我们将连续属性进行离散化。最简单的策略是采用“二分法”，C4.5决策树算法中也是使用的这种机制。

给定样本集D和连续属性a，假定a在D上出现了n个不同的取值，我们将这些值从小到大进行排序，记为 $\{a^1,a^2,...,a^n\}$ ，然后使用二分法进行划分。首先我们选择 $a^1$ 作为我们当前划分的阈值，将在属性a上值小于等于 $a^1$ 的样本分为一类，大于 $a^1$ 的分为另外一类，这样就产生了分支，然后再计算这样划分之后的信息增益；接下来重新选择 $a^2$ 作为我们当前的划分阈值，将在属性a上值小于等于

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。