A Text Clustering Algorithm Using an Online Clustering Scheme for Initialization(基于在线聚类策略的文本聚类算法)

本文详细介绍了基于在线聚类策略的文本聚类算法,重点探讨了吉布斯采样算法在推断后验分布中的应用,以及FGSDMM和FGSDMM+算法的流程。通过对文档生成过程的描述,阐述了如何利用狄利克雷分布进行类别和文本分布的选择,并解释了文本生成的独立性和位置无关性特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、研究内容

         文本聚类广泛的应用于文本的检索,信息的抽取和人名消歧等方面。本文提出了一种基于在线聚类策略的文本聚类算法,即FGSDMM+. 该算法假设语料库中至多有  个潜在的类别,并在算法开始时,认为语料库中真的有 个潜在的类别。初始化过程中,第一个文本选择一个潜在的类别,同时FGSDMM+ 创造一个新的类别去存储这个文本;后来的文本,根据狄利克雷和多项分布的混合模型推导出是选择一个非空的类别,还是潜在的类别,每次文本选择一个潜在的类别时,FGSDMM+都会创建一个新的类别去存储这个文本,同时也减少了后来的文本选择潜在类别的概率。当数据集的所有文本都初始化后,通过吉布斯采样算法迭代几次得到最终的分类结果。本实验的结果展示,不管是短文本,还是长文本,都比k-means、LDA和GSDMM算法的聚类效果好。

二 、算法的流程

 1. 狄利克雷和多项分布的混合模型(DMM)
               
         模型的参数:
                             
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值