30、主题建模中利用链接作为先验信息及流数据异常检测算法研究

主题建模中利用链接作为先验信息及流数据异常检测算法研究

1. Plink - LDA模型:利用链接作为主题建模的先验信息

在主题建模领域,传统的LDA模型与Plink - LDA模型存在显著差异。Plink - LDA模型的核心在于将引用信息作为先验信息融入文档建模,这一创新使得模型在处理文档时能够更精准地捕捉文档之间的细微差异。

1.1 模型原理

LDA模型与Plink - LDA模型后验概率的差异在于是否考虑引用实例。引用中的单词实例实际上揭示了其主题表示。在Plink - LDA模型中,与引用主题密切相关的单词主要由引用主题分布生成,文档主题分布经过修改以体现其引用与自身的差异。这种主题分布的变化旨在区分内容大部分相似的文档之间的细微差别,去除或略微减少主题空间中由引用引起的相似维度,使模型主要关注文档内容的不同部分,从而能够区分强相关的文档。

1.2 实验设计

为了评估Plink - LDA模型的性能,使用了两个标准链接数据集:Citeseer和Cora。
- Citeseer数据集 :包含来自六个类别的3312篇科学出版物,引用网络由4732个链接组成,经过词干提取和停用词去除后,剩余3703个唯一单词。
- Cora数据集 :包含来自七个类别的机器学习论文,数据集子集由2708篇科学出版物组成,数据集中有5429个引用,预处理后剩余1433个唯一单词。

1.3 任务与评估
  • 聚类性能 :通过将链接作为先验信息集成到文档建模中,进行聚类
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值