30、主题建模中利用链接作为先验信息及流数据异常检测算法研究

h0i1j2k3l

于 2025-09-16 16:20:24 发布

阅读量6

点赞数

CC 4.0 BY-SA版权

分类专栏：探索XML数据查询新范式文章标签：主题建模 Plnk-LDA 链接信息

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/h0i1j2k3l/article/details/154169148

探索XML数据查询新范式专栏收录该内容

75 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

主题建模中利用链接作为先验信息及流数据异常检测算法研究

1. Plink - LDA模型：利用链接作为主题建模的先验信息

在主题建模领域，传统的LDA模型与Plink - LDA模型存在显著差异。Plink - LDA模型的核心在于将引用信息作为先验信息融入文档建模，这一创新使得模型在处理文档时能够更精准地捕捉文档之间的细微差异。

1.1 模型原理

LDA模型与Plink - LDA模型后验概率的差异在于是否考虑引用实例。引用中的单词实例实际上揭示了其主题表示。在Plink - LDA模型中，与引用主题密切相关的单词主要由引用主题分布生成，文档主题分布经过修改以体现其引用与自身的差异。这种主题分布的变化旨在区分内容大部分相似的文档之间的细微差别，去除或略微减少主题空间中由引用引起的相似维度，使模型主要关注文档内容的不同部分，从而能够区分强相关的文档。

1.2 实验设计

为了评估Plink - LDA模型的性能，使用了两个标准链接数据集：Citeseer和Cora。
- Citeseer数据集 ：包含来自六个类别的3312篇科学出版物，引用网络由4732个链接组成，经过词干提取和停用词去除后，剩余3703个唯一单词。
- Cora数据集 ：包含来自七个类别的机器学习论文，数据集子集由2708篇科学出版物组成，数据集中有5429个引用，预处理后剩余1433个唯一单词。

1.3 任务与评估

聚类性能 ：通过将链接作为先验信息集成到文档建模中，进行聚类

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。