GeoBurst+论文记录
本篇博客主要记录自己学习以及复现GeoBurst+论文的过程,持续记录更新…
该论文主要有三个模块:
- 产生候选事件
- 基于嵌入学习和活动时间轴的归纳模型建立的二分类
- 在线的更新
一,产生候选事件
首先该论文认为将事件的发生地作为中心点,在周围会产生与之相关的推文。我们离中心点越近,越有可能观察到与之相关的推文,基于此使用了地理和语义相似性度量来赋予每个推文权重, ,之后找出权重最大的推文作为中心推文,中心推文及其邻居推文就构成了一个候选事件。
1,权重定义
- 地理相似性权重定义
地理位置的影响可以用核函数刻画,两个推文d′d'd′,ddd的地理相关性记为GGG(d′d'd′→\to→ddd)
其中hhh是窗宽(光滑参数),ccc是EpanechnikovEpanechnikovEpanechnikov核函数的度量常数 - 语义相似性权重定义
语义相似性度量是基于在共现图中的随机游走定义的,首先构建共现图,以关键词为节点,两个关键词共同出现的次数作为边的权重建图。之后使用重启随机游走算法(randomwalkwithrestart,RWRrandom walk with restart ,RWRrandomwalkwithrestart,RWR),从关键词uuu开始,当算法达到稳态分布时,单词 uuu 到 vvv 的权重表示为rrr(e′e'e′→\to→eee)。则设推文ddd的关键词集合为EdE_dEd={\{{e1e_1e1,e2e_2e2, ⋯\cdots⋯ ,eme_mem}\}},推文d′d'd′的关键词集合为Ed′E_d'Ed′={\{{e1′e'_1e1′,e2′e'_2e2′, ⋯\cdots⋯ ,em′e'_mem′}\}},则推文ddd与d′d'd′的语义相似性度量定义为:
- 推文权重定义
推文的权重由与之相关的所有推文