数据处理与分类技术综述
1. 离散属性与离散化
1.1 离散属性
离散属性是指其取值可以被计数的属性,它不能取其值范围内数轴上的所有值。
1.2 离散化
离散化是将数值属性转换为分类属性的过程。在离散化过程中,会形成一个新的分类属性 (X_0) 来替代现有的数值属性 (X)。(X_0) 的每个值 (x_0) 对应 (X) 的一个区间 ((a,b]),属于该区间的 (X) 的原始数值 (x) 会被 (x_0) 替换,形成的区间边界值通常被称为“分割点”。
离散化的动机在于,许多学习系统需要分类数据,而实际数据大多是数值型的。离散化可以将数值数据转换为适合这些系统处理的分类形式,并且在某些情况下,有效的离散化可以提高计算或预测性能。
离散化技术可以从以下多个维度进行分类:
|分类维度|具体方法|说明|
| ---- | ---- | ---- |
|监督与无监督|监督方法|使用训练实例的类信息来选择离散化分割点|
||无监督方法|不使用类信息|
|全局与局部|全局方法|对整个训练数据空间进行离散化,在单个分类任务中始终使用同一组区间|
||局部方法|允许为单个属性形成不同的区间集,每个区间集应用于不同的分类上下文|
|急切与懒惰|急切方法|在分类之前进行离散化|
||懒惰方法|在分类过程中进行离散化|
|不相交与相交|不相交方法|将数值属性的值范围离散化为不相交的区间|
||相交方法|将值范围离散化为可能相交的区间|
|参数化与非参数化|参数化离散化|需要用户输入,如离散化区间的最大数量|
||非参
超级会员免费看
订阅专栏 解锁全文
5390

被折叠的 条评论
为什么被折叠?



