HotDigg:从Digg挖掘近期热门话题
1. 引言
在Digg平台上,用户可以发布文章并对感兴趣的文章进行投票。通常,具有相似主题的文章往往会获得相似的Digg分数。基于此特性,我们从统一的视角开发了一个生成模型,认为每篇文章由主题混合模型生成,其投票数由主题决定。
2. 相关工作
新兴主题检测旨在自动从新闻专线和广播等数据流中找到主题相关的内容。一些方法通过聚类新文章,使每个聚类中的文章包含相似的单词,如潜在狄利克雷分配、概率潜在语义索引和非负矩阵分解等技术可用于发现主题,但这些聚类技术本身无法确定找到的聚类是否与新兴主题或热门主题相关。
部分算法专注于新兴主题的发现,而不涉及热门主题的识别;有的算法能实时检测主题,但无法估计检测到的新兴主题的受欢迎程度;还有的算法分析主题的生命周期,但无法利用投票分数识别热门主题。另外,一些研究展示了热门主题在社交网络中的传播特性,但未提供寻找热门主题的算法。
3. 预备知识
3.1 问题定义
- 观测数据 :设 $D = {d_1, …, d_n}$ 是提交到Digg服务的文章集合。每篇文章 $d_i \in D$ 是一个词袋,通过从原始Digg文章中删除停用词生成。Digg用户可以对每篇文章进行“点赞”或“踩”操作,文章 $d_i$ 的Digg分数 $s_i$ 是点赞数减去踩的数。设 $W = {w_1, …, w_m}$ 是出现在文章 $d_i$ 中的单词集合,$n(d_i, w)$ 表示单词 $w$ 在文章 $d_i$ 中出现的次数。
- 未观测主题 </
超级会员免费看
订阅专栏 解锁全文
4154

被折叠的 条评论
为什么被折叠?



