热词的识别与提取算法

这篇博客介绍了热词的识别与提取算法,主要探讨了贝叶斯平均法和牛顿冷却定律两种计算热词排名的方法。实验基于搜狗搜索引擎的数据,通过设置评价标准,计算词频变化来确定热词。作者还讨论了两种方法的优缺点,并提出了改进的热词评价策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

热词的识别与提取算法

标签(空格分隔):SPARK机器学习


欢迎关注本小小草的微信号,并求带飞~
这里写图片描述


今天读了一篇关于计算热词排名的硕士论文,感觉不错,所以将论文的实验思路与算法逻辑简单地做了个笔记,以便之后有用的时候可以回顾。

1.什么是热词

热词特点:
1.某一时间段内起点低,增长迅速
2.具有很强的延续性,和热词相关的其他词也被报道
3.热度随着时间的流逝而改变

2.热词排名计算的两种方法

热词排名方法一:贝叶斯平均法(Bayesian average)

先来理解一下利用贝叶斯统计算法的公式:
QQ截图20160606113934.png-6.2kB
WR是每个词的加权得分,WR越大表示热度越大
R是该词汇的平均得分(这里设定都为1)
v是总词频
m是排名前n的词汇的最低词频(n是自定义的阀值)

热词排名法二:牛顿冷却定律

将热词排名想象成一个即自然冷却的过程。可以利用物理学定律,建立“温度”与“时间”之间的函数关系,构建一个“指数式衰减”的过程。
牛顿冷却定律:物体的冷却速度,与其当前温度与室温之间的温差成正比。
若仅仅使用今天与昨天的搜索量对比,时间差为1,最终的冷却系数可以通过如下公式计算:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值