特征挖掘(二):连续特征离散化方法

本文介绍了连续特征离散化的定义,当前的状态以及不同类型的离散化方法,包括监督与无监督、动态与静态、全局与局部、自顶向下与自底向上以及直接与增量。离散化在数据挖掘和机器学习中起到重要作用,尤其是在处理非均匀分布的连续属性值和异常值时。文章还讨论了各种离散化方法的优缺点,并提供了相关文献供进一步研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1定义:

首先from wiki给出一个标准的连续特征离散化的定义:

在统计和机器学习中,离散化是指将连续属性,特征或变量转换或划分为离散或标称属性/特征/变量/间隔的过程。这在创建概率质量函数时非常有用 - 正式地,在密度估计中。它是一种离散化的形式,也可以是分组,如制作直方图。每当连续数据离散化时,总会存在一定程度的离散化误差。目标是将数量减少到手头的建模目的可忽略不计的水平

2.当前状态current status


早期,诸如等宽(equal-width),等频(equal-frequency)等技术用于离散化。伴随着精确度的需求以及有效的分类算法的发展,离散化的技术得到了快速发展。过去几年间,提出了许多离散化技术。试验表明离散化在减小数据大小、甚至改善预测精度方面都有着很大的潜力。离散化方法朝着不同的主线发展来满足不同的需求:监督与无监督(supervised vs, unsupervised);动态与静态(dynamic vs. static);全局与局部(global vs. local);自顶向下与自底向上(splitting(top-down) vs. merging(bottom-up));直接与增量(dire

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xiangyong58

喝杯茶还能肝到天亮,共同进步

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值