热词的识别与提取算法
标签(空格分隔):SPARK机器学习
欢迎关注本小小草的微信号,并求带飞~
今天读了一篇关于计算热词排名的硕士论文,感觉不错,所以将论文的实验思路与算法逻辑简单地做了个笔记,以便之后有用的时候可以回顾。
1.什么是热词
热词特点:
1.某一时间段内起点低,增长迅速
2.具有很强的延续性,和热词相关的其他词也被报道
3.热度随着时间的流逝而改变
2.热词排名计算的两种方法
热词排名方法一:贝叶斯平均法(Bayesian average)
先来理解一下利用贝叶斯统计算法的公式:
WR是每个词的加权得分,WR越大表示热度越大
R是该词汇的平均得分(这里设定都为1)
v是总词频
m是排名前n的词汇的最低词频(n是自定义的阀值)
热词排名法二:牛顿冷却定律
将热词排名想象成一个即自然冷却的过程。可以利用物理学定律,建立“温度”与“时间”之间的函数关系,构建一个“指数式衰减”的过程。
牛顿冷却定律:物体的冷却速度,与其当前温度与室温之间的温差成正比。
若仅仅使用今天与昨天的搜索量对比,时间差为1,最终的冷却系数可以通过如下公式计算: