主题建模中利用链接作为先验信息及流数据异常检测算法研究
1. Plink - LDA模型:利用链接作为主题建模的先验信息
在主题建模领域,传统的LDA模型与Plink - LDA模型存在显著差异。Plink - LDA模型的核心在于将引用信息作为先验信息融入文档建模,这一创新使得模型在处理文档时能够更精准地捕捉文档之间的细微差异。
1.1 模型原理
LDA模型与Plink - LDA模型后验概率的差异在于是否考虑引用实例。引用中的单词实例实际上揭示了其主题表示。在Plink - LDA模型中,与引用主题密切相关的单词主要由引用主题分布生成,文档主题分布经过修改以体现其引用与自身的差异。这种主题分布的变化旨在区分内容大部分相似的文档之间的细微差别,去除或略微减少主题空间中由引用引起的相似维度,使模型主要关注文档内容的不同部分,从而能够区分强相关的文档。
1.2 实验设计
为了评估Plink - LDA模型的性能,使用了两个标准链接数据集:Citeseer和Cora。
- Citeseer数据集 :包含来自六个类别的3312篇科学出版物,引用网络由4732个链接组成,经过词干提取和停用词去除后,剩余3703个唯一单词。
- Cora数据集 :包含来自七个类别的机器学习论文,数据集子集由2708篇科学出版物组成,数据集中有5429个引用,预处理后剩余1433个唯一单词。
1.3 任务与评估
- 聚类性能 :通过将链接作为先验信息集成到文档建模中,进行聚类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



