决策树缺失值处理方法

在这里插入图片描述

缺失值场景

(1)在各列特征都有缺失值时,选择哪列特征去当前划分分支?
(2)选定划分分支的特征后,如果某样本在该特征上取值缺失,该把这个样本划分到哪个分支?

一些数学原理

特征aaaVVV个取值{a1,a2,...,aV}\{a^1, a^2, ..., a^V\}{a1,a2,...,aV}
样本子集D~\tilde{D}D~中,属于第kkk(k=1,2,...,N)(k=1,2,...,N)(k=1,2,...,N)的子集为D~k\tilde{D}_kD~k
=> D~=⋃k=1ND~k=⋃v=1VD~v\tilde{D}=\bigcup_{k=1}^N \tilde{D}_k=\bigcup_{v=1}^V \tilde{D}^vD~=k=1ND~k=v=1VD~v

假定样本xxx的权重为wxw_xwx,则对特征aaa
无缺失样本占比:ρ=∑x∈D~wx∑x∈Dww无缺失样本占比:\rho=\frac{\sum_{x\in\tilde{D}}w_x}{\sum_{x\in D}w_w}ρ=xDwwxD~wx
无缺失样本,第k类占比:p~k=∑x∈D~kwx∑x∈D~wx(1≤k≤N)无缺失样本,第k类占比:\tilde{p}_k=\frac{\sum_{x\in\tilde{D}_k}w_x}{\sum_{x\in \tilde{D}}w_x}(1\leq k\leq N),kp~k=xD~wxxD~kwx(1kN)
无缺失样本,特征a=av占比:r~v=∑x∈D~vwx∑x∈D~wx(1≤v≤V)无缺失样本,特征a=a^v占比:\tilde{r}_v=\frac{\sum_{x\in\tilde{D}^v}w_x}{\sum_{x\in \tilde{D}}w_x}(1\leq v\leq V),a=avr~v=xD~wxxD~vwx(1vV)

相应的信息增益为
Gain(D,a)=ρ×(Ent(D~)−∑v=1Vr~vEnt(D~v)),Ent(D~)=−∑k=1Np~klogp~kGain(D,a)=\rho\times\Big(Ent(\tilde{D})-\sum\limits_{v=1}^V\tilde{r}_vEnt(\tilde{D}_v)\Big),Ent(\tilde{D})=-\sum\limits_{k=1}^N\tilde{p}_k log\tilde{p}_kGain(D,a)=ρ×(Ent(D~)v=1Vr~vEnt(D~v)),Ent(D~)=k=1Np~klogp~k

分裂方法

训练集DDD,特征aaa,在特征aaa上有值(非缺失)的样本子集D~\tilde{D}D~
=> 则根据子集D~\tilde{D}D~ 判定特征aaa的优劣

在选定特征aaa上缺失的样本,划分特征aaa
=> 把该样本 同时划入所有子节点,按特征aaa的取值占比 计算样本分裂到各分支的权重r~vwx\tilde{r}_v w_xr~vwx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值