聚类算法比较及其对主题发现的影响
在文本数据分析领域,主题发现和聚类算法是非常重要的工具。本文将探讨不同聚类算法在主题发现过程中的应用和效果,通过实际案例分析来比较它们的优劣。
1. 相关研究与算法选择
在主题发现的研究中,不同的学者提出了不同的方法。一些研究提出了检测随时间变化的主题的方法,但存在局限性,比如有的只检测整个时间段内持续存在的主题,有的假设主题随时间不变。
在聚类算法方面,有学者比较了层次算法、K - means和二分K - means算法。他们通过熵和“总体相似度”来衡量聚类算法的质量,发现二分K - means算法表现出与其他算法相同或更好的质量。基于这些研究结果,我们在评估不同聚类算法时,排除了一些增量版本的k - means算法和在线球形k - means算法,同时决定使用DBScan算法,因为它与k - means算法在本质上有很大不同,这样我们就有两种差异较大的算法来评估聚类器对监测过程的影响。
2. ThemeFinder模型概述
ThemeFinder以文本集合为输入,该集合包含多个时间段 $t_i$ 的文档。文档被描述为从特征空间导出的词向量,我们不观察文档的全部内容,而是关注标题、关键词和有限的句子,假设这些片段能以紧凑的方式向读者传播内容。
在每个时间段 $t_i$,文档集 $D_i$ 包含上一时间段 $t_{i - 1}$ 的文档以及在该时间段插入存档的文档。特征空间是由具有最高TF×IDF值的n个“主导”词组成的集合,每个时间段都有其特定的特征空间。
标签和主题簇的概念反映了概念索引和潜在语义索引的相关见解。我们为簇定义标签,当簇中包含某个词的文档比例除以
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



