84、聚类算法比较及其对主题发现的影响

聚类算法比较及其对主题发现的影响

在文本数据分析领域,主题发现和聚类算法是非常重要的工具。本文将探讨不同聚类算法在主题发现过程中的应用和效果,通过实际案例分析来比较它们的优劣。

1. 相关研究与算法选择

在主题发现的研究中,不同的学者提出了不同的方法。一些研究提出了检测随时间变化的主题的方法,但存在局限性,比如有的只检测整个时间段内持续存在的主题,有的假设主题随时间不变。

在聚类算法方面,有学者比较了层次算法、K - means和二分K - means算法。他们通过熵和“总体相似度”来衡量聚类算法的质量,发现二分K - means算法表现出与其他算法相同或更好的质量。基于这些研究结果,我们在评估不同聚类算法时,排除了一些增量版本的k - means算法和在线球形k - means算法,同时决定使用DBScan算法,因为它与k - means算法在本质上有很大不同,这样我们就有两种差异较大的算法来评估聚类器对监测过程的影响。

2. ThemeFinder模型概述

ThemeFinder以文本集合为输入,该集合包含多个时间段 $t_i$ 的文档。文档被描述为从特征空间导出的词向量,我们不观察文档的全部内容,而是关注标题、关键词和有限的句子,假设这些片段能以紧凑的方式向读者传播内容。

在每个时间段 $t_i$,文档集 $D_i$ 包含上一时间段 $t_{i - 1}$ 的文档以及在该时间段插入存档的文档。特征空间是由具有最高TF×IDF值的n个“主导”词组成的集合,每个时间段都有其特定的特征空间。

标签和主题簇的概念反映了概念索引和潜在语义索引的相关见解。我们为簇定义标签,当簇中包含某个词的文档比例除以

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值