【机器学习】决策树缺失值处理方法

本文探讨了决策树在处理缺失值时的多种方法,包括随机森林中的中位数和众数替换,以及C4.5算法的权值调整。在随机森林中,缺失值通过相似度矩阵和权重投票来确定估计值。C4.5决策树则通过信息增益计算和样本权值处理缺失值。在xgboost中,缺失值被视为稀疏矩阵处理,不考虑其数值,通过损失函数选择最佳路径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随机森林如何处理缺失值

  1. 对于缺失的数值型变量,用其对应类别的中位数代替。
    对于缺失的描述性变量,用其对应类别中出现次数最多的数值代替。
  2. 同1也是使用中位数和出现最多的数替换,但引入了权重。
    先计算要替换的数据和其他同类数据计算相似度,根据相似度确定缺失值是否更靠近该数据点。
  • 首先,给缺失值预设一些估计值,比如数值型特征,选择其余数据的中位数或众数作为当前的估计值
  • 然后,根据估计的数值,建立随机森林,把所有的数据放进随机森林里面跑一遍。记录每一组数据在决策树中一步一步分类的路径.
  • 判断哪组数据和缺失数据路径最相似,引入一个相似度矩阵,来记录数据之间的相似度,比如有N组数据,相似度矩阵大小就是N*N
  • 如果缺失值是类别变量,通过权重投票得到新估计值,如果是数值型变量,通过加权平均得到新的估计值,如此迭代,直到得到稳定的估计值

解释相似度矩阵
相似度矩阵就是任意两个观测实例间的相似度矩阵,原理是如果两个观测实例落在同一棵树的相同节点次数越多,则这两个观测实例的相似度越高

详细来说:
Proximity 用来衡量两个样本之间的相似性。原理就是如果两个样本落在树的同一个叶子节点的次数越多,则这两个样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

manylinux

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值