百度词条把数据离散化定义为把无限空间中有限的个体映射到有限的空间中去,以提高算法的时空效率。换句话说,在不改变相对大小的情况下,对数据进行相应的缩小。离散化仅适用于只关注元素之间的大小关系而不关注元素数值本身的情况。离散化可以降低特征中的噪声节点,提升特征的表达能力。
必要性:
1.数据离散化对数据预处理影响重大,研究表明离散化数值在提高建模速度和提高模型精度上有显著作用,比如,对于决策树来说,离散化数据可以加快数据建模的速度,拥有更高的,模型精度;离散化数值后,简化了逻辑回归,降低了数据过拟合的风险。
2.数据离散化实际是一个数据简化机制。因为通过数值离散化过程,一个完整的数据集变成一个个按照某种规则分类的子集,增强了模型的稳定性。
3.离散化后的特征对异常数据具有很强的鲁棒性(稳定性)。能减少噪声节点对数据的影响。
4.某些算法只能处理离散化数据,即使可以处理连续型数据,其综合学习效率和模型精度也要逊色于离散化数据
***:任何离散化过程都会带来一定的信息丢失,因此寻求最小化信息丢失是使用数值离散化技术人员的核心目标之一。
方法:
1.等频
2.等宽
3.聚类分析
4.基于卡方的方法
5.基于信息熵的方法变量类型:
变量类型:
针对不同的数据类型,有不同的离散化方法
1.连续变量的离散化
(一).