7、数据流聚类算法比较研究

net55

于 2025-10-08 09:23:25 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：集成计算技术前沿文章标签：数据流聚类 STREAM CluStream

本文链接：https://blog.youkuaiyun.com/net55/article/details/153608630

集成计算技术前沿专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据流聚类算法比较研究

一、引言

近年来，硬件和软件的进步使得社会各领域生成和存储数据的能力显著提升。日常生活中，使用信用卡或浏览网页等行为都会自动记录个人信息。据估计，2007 年数字宇宙约为 281 艾字节，到 2011 年预计将扩大 10 倍。然而，这些收集到的数据本身并无直接用处，需要进行处理以提取相关有用信息，供领域专家进一步分析，这推动了数据流挖掘领域的研究。

数据流可被形式化为一个可能无限的多维实例序列 $(X_1, \ldots, X_i, \ldots)$，每个实例在时间戳 $(T_1, \ldots, T_i, \ldots)$ 到达。每个 $X_i$ 是包含 $d$ 个维度的多维实例，记为 $X_i = (x_{i1} \ldots x_{id})$。数据流有两个重要特征：一是由于数据流可能是无限的，算法应只对数据进行一次遍历；二是数据流挖掘过程存在固有的时间成分，数据会随时间演变，即概念漂移。

在数据流挖掘的众多研究主题中，聚类是主要讨论的领域之一。聚类的无监督特性在数据流场景中尤为吸引人，因为让人类专家持续监督不断到来的实例并非易事。该领域的主要挑战之一是将任意聚类算法适配到数据流中，因为数据集存在一次遍历的限制。

聚类任务具有主观性，可从不同角度看待。可以定义一个度量空间，将实例视为该空间中的数据点，聚类可看作根据某种距离（如欧几里得距离）将实例划分为附近点组的问题。聚类算法的目标函数可以是最小化簇内方差并最大化簇间距离。另一种观点可能是输出输入实例的层次划分，以表明实例在簇中的相对接近程度。还有一种观点与点的密度有关，定义一定半径，考虑该半径内多维空间区域中的点数，相对更密集的连通区域被视为组，由低密度区域分隔。