47、流式聚类算法：探索与分析

最新推荐文章于 2025-09-11 15:23:18 发布

mm9012

最新推荐文章于 2025-09-11 15:23:18 发布

阅读量47

点赞数

CC 4.0 BY-SA版权

分类专栏：聚类分析的四大金刚文章标签：流式聚类算法 DEN CLU

本文链接：https://blog.youkuaiyun.com/mm9012/article/details/151206384

聚类分析的四大金刚专栏收录该内容

52 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

流式聚类算法：探索与分析

1. DEN与CLU足迹对比

DEN留下的足迹呈现出独特的特征。图中展示了DEN为100个微簇留下的次要足迹轨迹，以及与宏簇中心结合的可视化表示。CLU和DEN的足迹看起来相似，都暗示神秘输入数据包含11个簇。DEN在图中的结果尤其吸引人，100个足迹似乎本身就形成了簇。然而，在实际情况中，我们仍对不同“动物”（数据簇）的数量、空间位置、大小和异常情况存疑。我们不禁思考，DEN足迹是否比PrS或CLU足迹“更好”，如果是，又体现在哪些方面呢？

Hahsler等人（2017）的论文全面回顾了MOA在流式聚类中的应用。该论文不仅给出了CLU和DEN的详细示例，还介绍了另外五种流式聚类算法：Clustree、sample、window、DStream和DBStream，并提供了足够的R代码片段，方便有兴趣的人进行实验。论文中对这些算法在静态聚类中的应用进行了比较，还给出了一些流式数据的示例，同时讨论了如何将异常检测与流式算法结合，并展示了相关示例。此外，还介绍了一些事后质量指标，可用于比较不同方法的各个方面。Bifet等人（2018）的研究也是这方面的优质资料。值得一提的是，这些算法的实现可在MOA（大规模在线算法）网站获取，MOA是一个开源软件，允许用户对各种机器学习或数据挖掘算法在流式数据上进行实验。

不过，像BIRCH、CLU、DEN等“流式聚类”算法，既用于静态聚类，又通过离线静态聚类从微簇参数计算宏簇，这表明它们并非完全专注于分析无法批量保留的无标签流式数据。它们都无法独立于事后验证对数据流进行可视化解释，且都需要对计算出的微簇和宏簇进行某种转换才能使足迹可见。那么，基于模型的算法会有所不同，甚至更好吗？接下来我们将一探究竟。

会员秒杀 ¥9.9 重磅福利

超级会员免费看