聚类算法对比及星型聚类中心选择研究
1. 聚类算法与主题监测
聚类是将相似对象分组的任务。在图聚类中,顶点代表对象,边(可能有权重)代表对象间的相似度,聚类就是将图中的密集区域与稀疏区域分开,密集区域即为聚类。有多种聚类算法,如二分k - 均值算法和DBScan算法,下面将结合ThemeFinder工具对这两种算法进行分析。
1.1 聚类监测与主题发现
通过ThemeFinder监测聚类标签,能发现聚类中的主题变化。在二分k - 均值聚类中,聚类标签会随时间变化;而在DBScan聚类中,聚类标签相对稳定,但聚类数量会增加,不同时期会产生新标签以展示新主题。
1.2 算法效果与数据影响
实验表明,ThemeFinder在二分k - 均值和DBScan两种聚类算法中都能有效检测和监测聚类主题。DBScan产生大量噪声数据,说明所用数据噪声大,这可能是二分k - 均值聚类效果不佳的原因之一,这也是该算法的一个缺点。此外,在两种算法的结果中监测标签,都能看到数据中主题的变化,只是表现形式不同。同时,调整特征空间的次数较少,二分k - 均值在9个周期中仅调整2次,DBScan在5个周期中调整次数为0。
| 算法 | 标签变化特点 | 噪声数据情况 | 特征空间调整次数 |
|---|---|---|---|
| 二分k - 均值 | 标签随时间变化 | 较少提及 | 9个周期2次 |
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



