信息检索中的图遍历与交互式专利搜索系统评估
在信息检索领域,图遍历和专利搜索系统是两个重要的研究方向。本文将探讨图遍历的两种方法——随机游走和扩散激活,以及一个交互式联邦专利搜索系统PerFedPat的评估。
图遍历方法:随机游走与扩散激活
在图遍历中,随机游走和扩散激活是两种常用的方法。
随机游走
随机游走中,经过混合时间后,游走者处于任何特定节点v的概率将为π(v)。所提出的矩阵W是随机转移矩阵,我们希望通过索引排序结果得到真实相关性概率分布,即π(v)分布,但无法直接对其进行采样,而是有近似的相关性评分函数(如数据对象vi与查询之间的BM25分数)。如果适当选择近似概率π,Metropolis - Hastings方法可以为我们提供从概率分布中采样的方法。
扩散激活
扩散激活通过定义不同类型的约束,为定制遍历提供了更多选项。例如,路径和概念类型约束使图遍历依赖于领域或上下文,而不是严格依赖于查询。在扩散激活中,这些约束会将某些类型节点的边的概率设为零。
两种方法的比较
- 查询独立性路由 :这两种方法在查询独立路由方面具有高度可比性,它们基于相同的底层数学原理,不同的行为仅源于收敛特性。
- 查询依赖性路由 :在查询依赖的情况下,扩散激活方法提供了更多定制路由的选项,使图遍历具有高度可定制性和领域依赖性。而随机游走在使游走依赖于查询方面更清晰但灵活性较低,但它提供了根据信息检索上下文中的相关性定义概率的选项,从而实现查询依赖的路由。