如何利用计算机做主题模型,利用概率主题模型的微博热点话题发现方法-计算机系统应用.PDF...

利用概率主题模型的微博热点话题发现方法-计算机系统应用

2014 年 第 23 卷 第 8 期 计 算 机 系 统 应 用

利用概率主题模型的微博热点话题发现方法

1 2

米文丽 , 孙曰昕

1(陇东学院 信息工程学院, 庆阳 745000)

2(西北师范大学 计算机科学与工程学院, 兰州 730070)

摘 要: 微博具有长度短、实时传播、结构复杂以及变形词多等特点, 传统的向量空间模型(VSM)文本表示方法

和隐含语义分析(LSA)无法很好的对其进行建模. 提出了一种基于概率潜在语义分析(pLSA)和 K 均值聚类

(Kmeans) 的二阶段聚类算法, 此外通过定义微博热度分析和排序, 有效地支持微博热点话题发现. 实验表明, 此

方法能有效地进行话题聚类并检测出热点话题.

关键词: 概率潜在语义分析; 话题发现; 微博; Kmeans

Microblog Hot Topics Discovery Method Based on Probabilistic Topic Model

1 2

MI Wen-Li , SUN Yue-Xin

1(College of Information Engineering, Longdong University, Qingyang 745000, China)

2(College of Computer Science & Engineering, Northwest Normal University, Lanzhou 730070, China)

Abstract: Microblog has the characteristic of short length, complex structure and words deformation. Therefore,

traditional vector space model (VSM) and latent semantic analysis (LSA) are not suitable for modeling them. In this

paper, a two stage clustering algorithm based on probabilistic latent semantic analysis (pLSA) and Kmeans clustering

(Kmeans) is proposed. Besides, this paper also presents the definition of popularity and mechanism of sorting the topics.

Experiments show that our method can effectively cluster topics and be applied to microblog hot topic detection.

Key words: probabilistic latent semantic analysis; topic detection; microblog; Kmeans

近年来,在互联网上蓬勃发展的微博客(微博)越来 的 Twitter 上的检索日志和传统搜索引擎上的检索日

越多地引起了人们的关注. 微博从传统的社交网络中 志, 对微博上的搜索和传统的 Web 搜索做了一个完善

脱胎而出,在拥有了独立的服务平台后逐渐演化为一 而全面的对比, 发现 Twitter 用户倾向于去搜索时间相

种新的信息发布形式. 关的信息, 比如爆炸性的新闻和一些当前的流行趋势;

然而, 微博数据主要由普通用户产生, 无论是用 Neil[6]认为 Twitter 是对整个社会事实的反应,可以从中

词、形式还是具

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值