一、研究内容
文本聚类广泛的应用于文本的检索,信息的抽取和人名消歧等方面。本文提出了一种基于在线聚类策略的文本聚类算法,即FGSDMM+. 该算法假设语料库中至多有
个潜在的类别,并在算法开始时,认为语料库中真的有
个潜在的类别。初始化过程中,第一个文本选择一个潜在的类别,同时FGSDMM+ 创造一个新的类别去存储这个文本;后来的文本,根据狄利克雷和多项分布的混合模型推导出是选择一个非空的类别,还是潜在的类别,每次文本选择一个潜在的类别时,FGSDMM+都会创建一个新的类别去存储这个文本,同时也减少了后来的文本选择潜在类别的概率。当数据集的所有文本都初始化后,通过吉布斯采样算法迭代几次得到最终的分类结果。本实验的结果展示,不管是短文本,还是长文本,都比k-means、LDA和GSDMM算法的聚类效果好。
二 、算法的流程
1. 狄利克雷和多项分布的混合模型(DMM)
模型的参数: