7、数据流聚类算法比较研究

数据流聚类算法比较研究

一、引言

近年来,硬件和软件的进步使得社会各领域生成和存储数据的能力显著提升。日常生活中,使用信用卡或浏览网页等行为都会自动记录个人信息。据估计,2007 年数字宇宙约为 281 艾字节,到 2011 年预计将扩大 10 倍。然而,这些收集到的数据本身并无直接用处,需要进行处理以提取相关有用信息,供领域专家进一步分析,这推动了数据流挖掘领域的研究。

数据流可被形式化为一个可能无限的多维实例序列 $(X_1, \ldots, X_i, \ldots)$,每个实例在时间戳 $(T_1, \ldots, T_i, \ldots)$ 到达。每个 $X_i$ 是包含 $d$ 个维度的多维实例,记为 $X_i = (x_{i1} \ldots x_{id})$。数据流有两个重要特征:一是由于数据流可能是无限的,算法应只对数据进行一次遍历;二是数据流挖掘过程存在固有的时间成分,数据会随时间演变,即概念漂移。

在数据流挖掘的众多研究主题中,聚类是主要讨论的领域之一。聚类的无监督特性在数据流场景中尤为吸引人,因为让人类专家持续监督不断到来的实例并非易事。该领域的主要挑战之一是将任意聚类算法适配到数据流中,因为数据集存在一次遍历的限制。

聚类任务具有主观性,可从不同角度看待。可以定义一个度量空间,将实例视为该空间中的数据点,聚类可看作根据某种距离(如欧几里得距离)将实例划分为附近点组的问题。聚类算法的目标函数可以是最小化簇内方差并最大化簇间距离。另一种观点可能是输出输入实例的层次划分,以表明实例在簇中的相对接近程度。还有一种观点与点的密度有关,定义一定半径,考虑该半径内多维空间区域中的点数,相对更密集的连通区域被视为组,由低密度区域分隔。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值