42、数据处理与分类技术综述

原创于 2025-09-12 11:24:25 发布 · 14 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#离散化 #判别式学习 #析取范式

机器学习与数据挖掘精解专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据处理与分类技术综述

1. 离散属性与离散化

1.1 离散属性

离散属性是指其取值可以被计数的属性，它不能取其值范围内数轴上的所有值。

1.2 离散化

离散化是将数值属性转换为分类属性的过程。在离散化过程中，会形成一个新的分类属性 (X_0) 来替代现有的数值属性 (X)。(X_0) 的每个值 (x_0) 对应 (X) 的一个区间 ((a,b])，属于该区间的 (X) 的原始数值 (x) 会被 (x_0) 替换，形成的区间边界值通常被称为“分割点”。

离散化的动机在于，许多学习系统需要分类数据，而实际数据大多是数值型的。离散化可以将数值数据转换为适合这些系统处理的分类形式，并且在某些情况下，有效的离散化可以提高计算或预测性能。

离散化技术可以从以下多个维度进行分类：
|分类维度|具体方法|说明|
| ---- | ---- | ---- |
|监督与无监督|监督方法|使用训练实例的类信息来选择离散化分割点|
||无监督方法|不使用类信息|
|全局与局部|全局方法|对整个训练数据空间进行离散化，在单个分类任务中始终使用同一组区间|
||局部方法|允许为单个属性形成不同的区间集，每个区间集应用于不同的分类上下文|
|急切与懒惰|急切方法|在分类之前进行离散化|
||懒惰方法|在分类过程中进行离散化|
|不相交与相交|不相交方法|将数值属性的值范围离散化为不相交的区间|
||相交方法|将值范围离散化为可能相交的区间|
|参数化与非参数化|参数化离散化|需要用户输入，如离散化区间的最大数量|
||非参

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。