连续特征单变量离散化的改进算法
在数据处理和机器学习领域,连续特征的离散化是一个关键步骤。离散化能够将连续的数值转换为离散的区间,有助于提高模型的效率和性能。本文将介绍几种连续特征单变量离散化的算法,包括它们的原理、优缺点以及实验评估结果。
1. Fayyad和Irani的递归离散化算法:ent - mdl
对于给定的训练集,我们面临两个不同的问题:
- 使用多少个区间?
- 如何放置这些区间?
ent - mdl使用最小描述长度(mdl)准则来回答第一个问题,使用熵来回答第二个问题。对于固定数量的区间,最小化标签分布的熵可以得到一种离散化方式,直观上,经验标签分布尽可能不令人惊讶。然而,目前还没有已知的有效方法来最小化特征的熵。ent - mdl使用了一种启发式方法:给定一个区间,在使两个子区间的联合熵最小的点进行分割,这种启发式方法会递归应用。
为了解决区间总数的问题,Fayyad和Irani建议进行一个测试,以确定是否实际执行分割。这个测试解决了一个模型选择问题,候选模型如下:
- M0:区间上的标签是从相同分布独立生成的。
- Mi:存在一个直到索引i(i > 0)的实例分布,以及一个之后实例的独立分布,标签是独立生成的。
在这种情况下,分割数据的模型Mi在训练集上总是比不分割的M0具有更强的解释能力,但这可能是过拟合的表现,因为更复杂的模型可以很好地拟合训练数据,但对未见过的实例可能没有预测能力。ent - mdl使用mdl来选择模型,简而言之,mdl选择能够最大程度压缩数据(这里是类标签)的模型。ent - mdl使用的压缩是两部分代码,第一部分编码模型,第二部分编码数据。
超级会员免费看
订阅专栏 解锁全文
1990

被折叠的 条评论
为什么被折叠?



