利用算法挖掘热门话题与评估网页文章质量
在当今信息爆炸的时代,如何从海量的网页文章中挖掘出热门话题以及评估文章的质量成为了重要的研究方向。本文将介绍两种不同的方法,一种是用于从 Digg 网站文章中寻找热门话题的 HotDigg 算法,另一种是基于语义的网页文章质量评估方法 SQA。
从 Digg 文章中挖掘热门话题
在 Digg 平台上,人们分享网页文章并对提交的文章进行投票。为了推荐热门和有趣的话题,研究人员提出了 HotDigg 算法。
-
概率模型参数计算
- 为了计算所有的 $p(w=w_j|z_k)$、$p(z=z_k|d_i)$、$\tau_{z_k}$ 和 $\sigma^2_{z_k}$,需要扫描每篇 Digg 文章 $d_i$,并为每个单词 $w_j$ 的每次出现更新那些持有 $p(z=z_k|d_i, w_j)$ 聚合值的参数。
- M 步的时间复杂度为 $O(DW \cdot |Z|)$,其中 $DW = \sum_{d_i \in D} \sum_{w_j \in W} n(d_i, w_j)$,$DW$ 是所有 Digg 文章中所有单词的出现次数。
- EM 算法单次迭代的总体时间复杂度为 $O(|Z| \cdot |D| \cdot |W| + DW \cdot |Z|)$。
- 维护所有 $p(z=z_k|d_i, w_j)$ 和 $p(z=z_s|d_i, s_i)$ 的值需要 $O(|Z| \cdot |D| \cdot |W|)$ 的主存空间,对于 $p(w=w_j|z_k)$、
超级会员免费看
订阅专栏 解锁全文
1084

被折叠的 条评论
为什么被折叠?



