51、数据流分类中处理概念漂移的特征选择

数据流分类中处理概念漂移的特征选择

1 引言

随着软硬件技术的进步,流数据如今无处不在。存储、分析和可视化如此快速的大量数据往往是一项具有挑战性的任务。数据流领域的一个难题是数据流分类问题。由于内存和运行时间方面的潜在资源限制,传统的分类算法必须适应在流环境中运行。数据流分类至少有三个难点:数据长度大、概念漂移和特征选择。

概念漂移是数据流的一个常见属性,它是由于底层概念的变化而发生的。从传统的挖掘角度来看,特征选择已经得到了广泛的研究,但在数据流领域,这是一个更具挑战性的问题。概念漂移和数据的大长度使得在学习过程中无法应用经典的特征选择方法。

目前,大多数数据流挖掘的研究是在静态环境中进行的,即完整的数据集被呈现给学习算法。多年来,已经开发出了许多静态分类的解决方案,并且现在有几种相当准确的分类器可以大规模使用。然而,在一些最新的应用中,学习算法需要在动态环境中工作,例如交通管理、传感器网络、监控、网络日志分析或电信等。

概念漂移发生时,数据所围绕的概念会随时间变化。这种变化会反映在传入的实例中,并降低从过去训练元组(输入数据示例)中学到的分类器的准确性。在这类任务中,环境变化的性质和变化本身往往难以直接观察到,这使得学习变得更加困难。现实生活中概念漂移的例子包括监控系统、金融欺诈检测、垃圾邮件分类、天气预报和客户偏好等。

开发轻量级数据流学习算法已成为研究热点。处理带有概念漂移的数据流挖掘的不同方法包括实例选择方法、漂移检测、集成分类器、选项树以及使用霍夫丁边界来估计分类器性能等。

不幸的是,大多数现有的数据流分类技术只解决了数据无限长度和概念漂移的问题。同时,必须收集和处理的大量数据是速度慢和开销大的主要原因之一。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值