讨论搜索中相关性与知识增强的评估
在当今的数字图书馆领域,基于注释的讨论是一个至关重要的概念,它为数字图书馆管理的内容提供了额外的信息和见解。讨论搜索旨在根据给定查询检索相关的注释和评论,以满足用户的信息需求。本文将深入探讨基于知识和相关性增强策略的讨论搜索方法,并通过实验评估这些方法的有效性。
1. 电子邮件的注释视角
为了评估讨论搜索方法,需要合适的测试集。由于缺乏包含注释线程的“真实”数字图书馆测试平台,我们参与了去年TREC企业赛道的讨论搜索任务,该测试集包含来自多个W3C讨论列表的174,307封电子邮件。
电子邮件回复通常由两部分组成:引用部分(原文的段落)和包含实际评论(注释)的新部分。引用部分通常以引用字符(如‘>’)开头,其组合决定了引用深度。通过区分新部分和引用部分,以及从电子邮件头提取的线程结构,可以将电子邮件讨论线程转换为以片段(由引用确定)为注释目标的注释线程。为简化处理,将电子邮件的所有引用部分和新部分合并,使每封电子邮件由一个(合并的)新部分和至多一个(合并的)引用部分组成。
2. 讨论搜索方法
我们使用谓词逻辑,特别是概率Datalog(pDatalog)来实现检索函数。
2.1 概率Datalog
pDatalog是谓词逻辑的概率变体,其语法包含变量、常量、谓词和Horn子句。概率可以分配给事实。例如:
0.7 about(d1,"databases").
0.5 about(d1,"retrieval").
retrieve(D) :- about(D,"datab
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



