C4.5连续值处理方法 & 常见连续值处理方法

本文介绍了C4.5算法处理连续值的二分法,包括信息增益计算,并详细阐述了常见的连续值处理方法,如归一化、标准化、离散化和缺失值处理。归一化通过限制数据范围简化处理,标准化则改变数据均值和方差。离散化通过等宽、等频和基于信息熵的方式将连续数据分组。对于缺失值,可选择删除或插补策略。文章还讨论了归一化与标准化的联系和区别,并提供了处理大数据场景的建议。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

C4.5连续值处理方法

1.二分法:

 说白了,就是按照连续值进行排序,根据数值生成n-1个平均值(上述计算公式);

例子:

 密度进行信息增益计算:

(1)原始score集合:{a1,a2,……,an}= {0.697,0.774,0.634,0.608,0.556,0.403,0.481,0.437,0.666,0.243,0.245,0.343,0.639,0.657,0.360,0.593,0.719} 

(2)sort之后score集合:{a1,a2,……,an}={0.243,0.245,0.343,0.360,0.437,0.481,0.556,0.593,0.608,0.634,0.639,0.657,0.666,0.697,0.719,0.774}

 (3)平均值:{a1,a2,……,an}= {0.244 , 0.294, 0.351, 0.381, 0.420, 0.459, 0.518,0.574, 0.600, 0.621, 0.636, 0.648, 0.661, 0.681, 0.708, 0.746}.

(4)分别计算a1,a2,…,an的信息增益;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值