本文地址:http://blog.youkuaiyun.com/mounty_fsc/article/details/51438405
《Streaming First Story Detection with application to Twitter》论文笔记
这篇论文使用改进的LSH算法进行首报道检测,针对Twitter。LSH算法在多媒体检索里面也是常用的。
主要内容:
- 改进单纯应用LSH算法至FSD以提高精度
- 继续改进以能处理网络流文本
- 继续改进以能处理Twitter数据
- 介绍FSD与LSH
- 由于单纯把LSH(近似近邻)用于取代FSD的最近邻导致效果不好,所以提出一种策略
- 如何在无限数据的web文档流上做FSD(文档流的特点)
- 如何在Twitter上做FSD(Twitter上垃圾信息多)
- 实验
- 事实上,还有其他策略,如全局的文档数量限制,保存近30天的
- 通过调整评分判定为新话题的阈值,得出图1
- 图1中没有限制bucket的大小
- 图1UMass系统用了28个小时,而本文方法用了2小时
- 图2单位是100个文档为一批
- 没有使用 @内的信息,因为希望算法能独立于各种流类型