基于自适应衰减和半径的数据流演化聚类方法
1. 引言
在当今数据爆炸的时代,数据流无处不在。像Facebook这样的社交平台,每天都会产生海量的数据,据2017年9月的统计,其注册用户每天产生的数据超过30PB。这些连续、随时间变化且快速产生的数据流,被称为在线数据。对于这些无界数据流的分析和聚类变得至关重要。
聚类是将相似的数据点划分到同一子集或簇中,不同的数据对象划分到其他簇的过程。然而,现有的大多数聚类算法在处理数据流时存在诸多问题,比如无限维度、数据量不确定、数据随时间逐渐变化以及数据到达速度等因素,导致算法无法正常工作。
常见的聚类方法主要分为五类:划分法、层次法、基于网格法、基于模型法和基于密度法。其中,基于密度的聚类方法因其能够发现任意形状的簇以及检测噪声的能力,成为处理信息流的常用且有益的方法。不过,目前大多数算法并非完全基于在线的方法,无法处理数据点的演化特征,或者处理速度慢、受高维数据影响大、内存需求高。
为了解决这些问题,提出了一种基于密度的聚类技术——自适应衰减和半径的在线数据流聚类算法(ADROCS)。该算法能够在(Rmin, Rmax)范围内更新半径,并引入了一个衰减因子来更新衰减变量,而不是使用恒定的衰减变量,从而有效地在密集和稀疏区域形成簇。
2. 相关工作回顾
- DBSCAN :这是一种能产生任意形状簇的基础算法。它根据Eps(半径)和MinPts(最小点数)将数据点定义为核心点、边界点或噪声点。但该算法不考虑内存限制,不适用于高维数据集。
- BIRCH :是用于信息流聚类的
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



