本体驱动索引在个性化信息检索中的应用
1. 背景与动机
信息检索(IR)是一个广泛的领域,有众多不同的应用,面向知识和专业水平各异的用户。当前的IR研究涵盖了多种理论(如布尔理论、概率理论等)和多个领域(如知识管理、自然语言处理等),旨在为用户的特定需求(通常以关键词查询的形式呈现)找到最佳答案。
现代IR的研究可分为两类:一类是隐式考虑上下文(如使用潜在语义分析/索引),另一类是使用显式知识来捕捉上下文(如使用领域本体对数据进行上下文处理的模型)。我们的工作聚焦于后者。
我们认为,如果IR系统能为每个用户进行个性化定制,其效率会更高。个性化旨在根据用户的兴趣改进检索过程,理想情况下,所有可用信息(包括用户的专业知识)都应参与结果的构建。然而,在许多方法中,个性化仅体现在查询环节,整个上下文通常未被明确定义。
此外,用户的实际需求与他们表达需求的方式之间存在差距。一方面,精确而详尽地解释信息需求并为每个需求重复此过程非常困难;另一方面,将信息需求转换为特定的搜索结构(如搜索表单、通配符等)并非易事。在企业或科学数据管理环境中,用户对自己的需求有明确的认识,但不足以进行精确查询。如果能将这些知识形式化并合理地集成到IR系统中,查询结果将更具相关性。
我们的目标有两个:一是定义一个统一表示数据和上下文的模型;二是提出一个全局架构,以自动利用底层模型。在我们的工作中,上下文代表了关于信息系统及其组件、领域数据以及用户需求(即感兴趣的数据子集、资源偏好和资源交互)的知识。
2. 相关工作
IR模型主要有三种范式:
|范式|描述|
| ---- | ---- |
|布尔模型|一
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



