基于过往查询的概率性搜索结果复用与微博细粒度事件提取
在信息检索和事件提取领域,有两项重要的研究值得关注,一项是关于利用过往查询进行信息检索的新算法,另一项是微博上细粒度事件提取的方法。
基于过往查询的信息检索算法
在信息检索中,为了提高检索的精度和效率,研究人员提出了一种新的基于过往查询的算法。
文档和查询的构建
- 基本元素 :文档的最基本元素是词项,词项由英文字母组成。文档和查询都由词项构成,每个文档都是唯一的。
- 词项选择 :由于构成文档的词项可能属于多个主题,因此使用Zipf定律或指数分布从不同主题中选择词项。
- 查询构建 :过往查询从文档中创建,新查询则基于过往查询通过添加或删除词项来构建。
- 相关性判断 :为了模拟用户对特定查询的文档相关性判断,应用了Bradford定律。
利用过往查询进行检索
- 查询比较 :每个提交的查询都会与其相关文档一起保存。新查询会与系统中存储的过往查询进行比较,如果有相似的过往查询,则使用算法从最相似的过往查询中检索相关文档。
- 文档分组 :算法将从过往查询中检索到的文档列表按2的幂次分组。例如,如果文档列表有30个文档,则将其近似为32个文档,并分为5组。
- 相关性判断因素
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



