1、监督离散化(supervised discretization)
考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益,基尼指数,最短描述长度原则(MDLP,基于熵),WoE等。
(1)最优准则:基于“树结构准则”查找最佳分组 (条件推理树Conditional Inference Trees, initially excludes missing values(NA) to compute the cutpoints, adding them back later in the process for thecalculation of the Information Value)。
准则:
(a)熵;
(b)目标和分支节点使用Pearson卡方统计量的p值;
(2)单调事件率MonotonicEvent Rate:要求各组的单调事件率呈单调。
(3)约束最优ConstrainedOptimal Binning:基于预定义的约束创建分组。
2、无监督离散化(unsupervised d

本文介绍了离散化(Discretization)技术,包括监督和无监督两种方式。在监督离散化中,利用卡方检验、信息增益等准则寻找最佳分组,例如通过熵和Pearson卡方统计量。无监督离散化则不考虑类别信息,采用等宽、等频等方法进行分箱。此外,还提到了人工定区间的方式以及数据平滑处理的重要性。参考链接提供了更多相关资源。
最低0.47元/天 解锁文章
840





