基于虚拟骨干深度学习的Twitter大数据事件检测
数据收集
数据收集于2012年至2016年期间,使用流式API和一组关键词进行收集。基于Twitter数据集,提取了与2016年相关的70000条评论作为Twitter事件数据集评论。这些数据集用于比较不同观点的评论,同时用于评估方法。从70000条推文中,以10折方式选择63000条用于训练阶段,7000条用于测试阶段。以下是2016年部分推文事件的分布情况:
| 标题 | 开始时间 | 结束时间 |
| — | — | — |
| Brexit | 2/24/2016 12:54 | 4/13/2016 6:43 |
| Brussels - airport - explosion | 3/22/2016 8:28 | 3/22/2016 13:54 |
| hijacked - plane - Cyprus | 3/29/2016 7:16 | 3/29/2016 10:38 |
| irish - ge16 | 2/3/2016 11:05 | 2/15/2016 23:56 |
| Lahore blast | 3/27/2016 15:33 | 3/27/2016 17:03 |
| Panama papers | 4/3/2016 18:58 | 4/4/2016 6:10 |
| Sismoecuador | 4/17/2016 16:36 | 4/18/2016 0:21 |
分类阶段
社交媒体数据流的分类可看作是数据流分类的一个实例,其中类别群体不断增长和演变。数据分类方法包括HNN,当生成word2vec文件后,该
基于虚拟骨干的Twitter事件检测
超级会员免费看
订阅专栏 解锁全文
1941

被折叠的 条评论
为什么被折叠?



