1定义:
首先from wiki给出一个标准的连续特征离散化的定义:
在统计和机器学习中,离散化是指将连续属性,特征或变量转换或划分为离散或标称属性/特征/变量/间隔的过程。这在创建概率质量函数时非常有用 - 正式地,在密度估计中。它是一种离散化的形式,也可以是分组,如制作直方图。每当连续数据离散化时,总会存在一定程度的离散化误差。目标是将数量减少到手头的建模目的可忽略不计的水平。
2.当前状态current status
早期,诸如等宽(equal-width),等频(equal-frequency)等技术用于离散化。伴随着精确度的需求以及有效的分类算法的发展,离散化的技术得到了快速发展。过去几年间,提出了许多离散化技术。试验表明离散化在减小数据大小、甚至改善预测精度方面都有着很大的潜力。离散化方法朝着不同的主线发展来满足不同的需求:监督与无监督(supervised vs, unsupervised);动态与静态(dynamic vs. static);全局与局部(global vs. local);自顶向下与自底向上(splitting(top-down) vs. merging(bottom-up));直接与增量(dire