55、利用算法挖掘热门话题与评估网页文章质量

利用算法挖掘热门话题与评估网页文章质量

在当今信息爆炸的时代,如何从海量的网页文章中挖掘出热门话题以及评估文章的质量成为了重要的研究方向。本文将介绍两种不同的方法,一种是用于从 Digg 网站文章中寻找热门话题的 HotDigg 算法,另一种是基于语义的网页文章质量评估方法 SQA。

从 Digg 文章中挖掘热门话题

在 Digg 平台上,人们分享网页文章并对提交的文章进行投票。为了推荐热门和有趣的话题,研究人员提出了 HotDigg 算法。

  1. 概率模型参数计算

    • 为了计算所有的 $p(w=w_j|z_k)$、$p(z=z_k|d_i)$、$\tau_{z_k}$ 和 $\sigma^2_{z_k}$,需要扫描每篇 Digg 文章 $d_i$,并为每个单词 $w_j$ 的每次出现更新那些持有 $p(z=z_k|d_i, w_j)$ 聚合值的参数。
    • M 步的时间复杂度为 $O(DW \cdot |Z|)$,其中 $DW = \sum_{d_i \in D} \sum_{w_j \in W} n(d_i, w_j)$,$DW$ 是所有 Digg 文章中所有单词的出现次数。
    • EM 算法单次迭代的总体时间复杂度为 $O(|Z| \cdot |D| \cdot |W| + DW \cdot |Z|)$。
    • 维护所有 $p(z=z_k|d_i, w_j)$ 和 $p(z=z_s|d_i, s_i)$ 的值需要 $O(|Z| \cdot |D| \cdot |W|)$ 的主存空间,对于 $p(w=w_j|z_k)$、
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值