84、聚类算法比较及其对主题发现的影响

原创于 2025-06-29 16:46:07 发布 · 51 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#聚类算法 # 主题发现 # 二分K-means

《C编程语言》：从入门到精通专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类算法比较及其对主题发现的影响

在文本数据分析领域，主题发现和聚类算法是非常重要的工具。本文将探讨不同聚类算法在主题发现过程中的应用和效果，通过实际案例分析来比较它们的优劣。

1. 相关研究与算法选择

在主题发现的研究中，不同的学者提出了不同的方法。一些研究提出了检测随时间变化的主题的方法，但存在局限性，比如有的只检测整个时间段内持续存在的主题，有的假设主题随时间不变。

在聚类算法方面，有学者比较了层次算法、K - means和二分K - means算法。他们通过熵和“总体相似度”来衡量聚类算法的质量，发现二分K - means算法表现出与其他算法相同或更好的质量。基于这些研究结果，我们在评估不同聚类算法时，排除了一些增量版本的k - means算法和在线球形k - means算法，同时决定使用DBScan算法，因为它与k - means算法在本质上有很大不同，这样我们就有两种差异较大的算法来评估聚类器对监测过程的影响。

2. ThemeFinder模型概述

ThemeFinder以文本集合为输入，该集合包含多个时间段 $t_i$ 的文档。文档被描述为从特征空间导出的词向量，我们不观察文档的全部内容，而是关注标题、关键词和有限的句子，假设这些片段能以紧凑的方式向读者传播内容。

在每个时间段 $t_i$，文档集 $D_i$ 包含上一时间段 $t_{i - 1}$ 的文档以及在该时间段插入存档的文档。特征空间是由具有最高TF×IDF值的n个“主导”词组成的集合，每个时间段都有其特定的特征空间。

标签和主题簇的概念反映了概念索引和潜在语义索引的相关见解。我们为簇定义标签，当簇中包含某个词的文档比例除以

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。