流式聚类算法:探索与分析
1. DEN与CLU足迹对比
DEN留下的足迹呈现出独特的特征。图中展示了DEN为100个微簇留下的次要足迹轨迹,以及与宏簇中心结合的可视化表示。CLU和DEN的足迹看起来相似,都暗示神秘输入数据包含11个簇。DEN在图中的结果尤其吸引人,100个足迹似乎本身就形成了簇。然而,在实际情况中,我们仍对不同“动物”(数据簇)的数量、空间位置、大小和异常情况存疑。我们不禁思考,DEN足迹是否比PrS或CLU足迹“更好”,如果是,又体现在哪些方面呢?
Hahsler等人(2017)的论文全面回顾了MOA在流式聚类中的应用。该论文不仅给出了CLU和DEN的详细示例,还介绍了另外五种流式聚类算法:Clustree、sample、window、DStream和DBStream,并提供了足够的R代码片段,方便有兴趣的人进行实验。论文中对这些算法在静态聚类中的应用进行了比较,还给出了一些流式数据的示例,同时讨论了如何将异常检测与流式算法结合,并展示了相关示例。此外,还介绍了一些事后质量指标,可用于比较不同方法的各个方面。Bifet等人(2018)的研究也是这方面的优质资料。值得一提的是,这些算法的实现可在MOA(大规模在线算法)网站获取,MOA是一个开源软件,允许用户对各种机器学习或数据挖掘算法在流式数据上进行实验。
不过,像BIRCH、CLU、DEN等“流式聚类”算法,既用于静态聚类,又通过离线静态聚类从微簇参数计算宏簇,这表明它们并非完全专注于分析无法批量保留的无标签流式数据。它们都无法独立于事后验证对数据流进行可视化解释,且都需要对计算出的微簇和宏簇进行某种转换才能使足迹可见。那么,基于模型的算法会有所不同,甚至更好吗?接下来我们将一探究竟。
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



