25、连续特征单变量离散化的改进算法

连续特征单变量离散化的改进算法

在数据处理和机器学习领域,连续特征的离散化是一个关键步骤。离散化能够将连续的数值转换为离散的区间,有助于提高模型的效率和性能。本文将介绍几种连续特征单变量离散化的算法,包括它们的原理、优缺点以及实验评估结果。

1. Fayyad和Irani的递归离散化算法:ent - mdl

对于给定的训练集,我们面临两个不同的问题:
- 使用多少个区间?
- 如何放置这些区间?

ent - mdl使用最小描述长度(mdl)准则来回答第一个问题,使用熵来回答第二个问题。对于固定数量的区间,最小化标签分布的熵可以得到一种离散化方式,直观上,经验标签分布尽可能不令人惊讶。然而,目前还没有已知的有效方法来最小化特征的熵。ent - mdl使用了一种启发式方法:给定一个区间,在使两个子区间的联合熵最小的点进行分割,这种启发式方法会递归应用。

为了解决区间总数的问题,Fayyad和Irani建议进行一个测试,以确定是否实际执行分割。这个测试解决了一个模型选择问题,候选模型如下:
- M0:区间上的标签是从相同分布独立生成的。
- Mi:存在一个直到索引i(i > 0)的实例分布,以及一个之后实例的独立分布,标签是独立生成的。

在这种情况下,分割数据的模型Mi在训练集上总是比不分割的M0具有更强的解释能力,但这可能是过拟合的表现,因为更复杂的模型可以很好地拟合训练数据,但对未见过的实例可能没有预测能力。ent - mdl使用mdl来选择模型,简而言之,mdl选择能够最大程度压缩数据(这里是类标签)的模型。ent - mdl使用的压缩是两部分代码,第一部分编码模型,第二部分编码数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值