25、连续特征单变量离散化的改进算法

web99

于 2025-09-01 12:22:25 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘前沿洞察文章标签：连续特征离散化 ent-mdl ent-bay

本文链接：https://blog.youkuaiyun.com/web99/article/details/153865724

数据挖掘前沿洞察专栏收录该内容

79 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

连续特征单变量离散化的改进算法

在数据处理和机器学习领域，连续特征的离散化是一个关键步骤。离散化能够将连续的数值转换为离散的区间，有助于提高模型的效率和性能。本文将介绍几种连续特征单变量离散化的算法，包括它们的原理、优缺点以及实验评估结果。

1. Fayyad和Irani的递归离散化算法：ent - mdl

对于给定的训练集，我们面临两个不同的问题：
- 使用多少个区间？
- 如何放置这些区间？

ent - mdl使用最小描述长度（mdl）准则来回答第一个问题，使用熵来回答第二个问题。对于固定数量的区间，最小化标签分布的熵可以得到一种离散化方式，直观上，经验标签分布尽可能不令人惊讶。然而，目前还没有已知的有效方法来最小化特征的熵。ent - mdl使用了一种启发式方法：给定一个区间，在使两个子区间的联合熵最小的点进行分割，这种启发式方法会递归应用。

为了解决区间总数的问题，Fayyad和Irani建议进行一个测试，以确定是否实际执行分割。这个测试解决了一个模型选择问题，候选模型如下：
- M0：区间上的标签是从相同分布独立生成的。
- Mi：存在一个直到索引i（i > 0）的实例分布，以及一个之后实例的独立分布，标签是独立生成的。

在这种情况下，分割数据的模型Mi在训练集上总是比不分割的M0具有更强的解释能力，但这可能是过拟合的表现，因为更复杂的模型可以很好地拟合训练数据，但对未见过的实例可能没有预测能力。ent - mdl使用mdl来选择模型，简而言之，mdl选择能够最大程度压缩数据（这里是类标签）的模型。ent - mdl使用的压缩是两部分代码，第一部分编码模型，第二部分编码数据。