54、HotDigg:从Digg挖掘近期热门话题

HotDigg:从Digg挖掘近期热门话题

1. 引言

在Digg平台上,用户可以发布文章并对感兴趣的文章进行投票。通常,具有相似主题的文章往往会获得相似的Digg分数。基于此特性,我们从统一的视角开发了一个生成模型,认为每篇文章由主题混合模型生成,其投票数由主题决定。

2. 相关工作

新兴主题检测旨在自动从新闻专线和广播等数据流中找到主题相关的内容。一些方法通过聚类新文章,使每个聚类中的文章包含相似的单词,如潜在狄利克雷分配、概率潜在语义索引和非负矩阵分解等技术可用于发现主题,但这些聚类技术本身无法确定找到的聚类是否与新兴主题或热门主题相关。

部分算法专注于新兴主题的发现,而不涉及热门主题的识别;有的算法能实时检测主题,但无法估计检测到的新兴主题的受欢迎程度;还有的算法分析主题的生命周期,但无法利用投票分数识别热门主题。另外,一些研究展示了热门主题在社交网络中的传播特性,但未提供寻找热门主题的算法。

3. 预备知识
3.1 问题定义
  • 观测数据 :设 $D = {d_1, …, d_n}$ 是提交到Digg服务的文章集合。每篇文章 $d_i \in D$ 是一个词袋,通过从原始Digg文章中删除停用词生成。Digg用户可以对每篇文章进行“点赞”或“踩”操作,文章 $d_i$ 的Digg分数 $s_i$ 是点赞数减去踩的数。设 $W = {w_1, …, w_m}$ 是出现在文章 $d_i$ 中的单词集合,$n(d_i, w)$ 表示单词 $w$ 在文章 $d_i$ 中出现的次数。
  • 未观测主题 </
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值