42、数据处理与分类技术综述

数据处理与分类技术综述

1. 离散属性与离散化

1.1 离散属性

离散属性是指其取值可以被计数的属性,它不能取其值范围内数轴上的所有值。

1.2 离散化

离散化是将数值属性转换为分类属性的过程。在离散化过程中,会形成一个新的分类属性 (X_0) 来替代现有的数值属性 (X)。(X_0) 的每个值 (x_0) 对应 (X) 的一个区间 ((a,b]),属于该区间的 (X) 的原始数值 (x) 会被 (x_0) 替换,形成的区间边界值通常被称为“分割点”。

离散化的动机在于,许多学习系统需要分类数据,而实际数据大多是数值型的。离散化可以将数值数据转换为适合这些系统处理的分类形式,并且在某些情况下,有效的离散化可以提高计算或预测性能。

离散化技术可以从以下多个维度进行分类:
|分类维度|具体方法|说明|
| ---- | ---- | ---- |
|监督与无监督|监督方法|使用训练实例的类信息来选择离散化分割点|
||无监督方法|不使用类信息|
|全局与局部|全局方法|对整个训练数据空间进行离散化,在单个分类任务中始终使用同一组区间|
||局部方法|允许为单个属性形成不同的区间集,每个区间集应用于不同的分类上下文|
|急切与懒惰|急切方法|在分类之前进行离散化|
||懒惰方法|在分类过程中进行离散化|
|不相交与相交|不相交方法|将数值属性的值范围离散化为不相交的区间|
||相交方法|将值范围离散化为可能相交的区间|
|参数化与非参数化|参数化离散化|需要用户输入,如离散化区间的最大数量|
||非参

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值