擦除器格与语义内容:探索擦除器顺序关系中的语义信息
1. 引言
在信息检索领域,选择性擦除器被提出作为一种在受量子启发的信息检索系统中表示文本文档的方法。选择性擦除器 E(t, w) 是一种变换,它会擦除文本中不在以术语 t 为中心的 w 个位置窗口内的所有标记。基于此,我们可以定义不同的词汇测量:
1. 术语 t 在文档 D 中的出现次数:|E(t, 0)D|
2. 术语 t 在文档 D 中的出现频率:|E(t,0)D| / |D|
3. 术语 t1 和 t2 在文档 D 中最小距离为 w 时的共现频率:|E(t2,0)E(t1,w)D| / |D|
虽然这些构成了文本文档表示的基础,但我们需要一种方法来进行更高级的检索操作。本文将选择性擦除器的概念扩展到选择性格,用于基于文档的“量子”表示进行排名或分类。我们假设可以定义一组兼容的擦除器来表征相关性,应用这些擦除器可以保留或破坏文档。如果文档被保留(或大部分保留),则表明其具有相关性;如果文档被破坏(或大部分破坏),则表明其不相关。
2. 擦除器及其顺序关系
为了捕捉单词出现的上下文,我们研究与不同术语出现相关的选择性擦除器之间的关系。本文主要关注两种关系:正交性和严格排序。
2.1 正交性(不相交性)
两个擦除器正交时,它们在文档 D 中没有共同保留的部分,即:
$E_1 \perp_D E_2 \Leftrightarrow \forall D_i |E_1[E_2 D_i]| = 0$
2.2 严格排序(包含性)
当一个擦除器包含另一个擦除器时,即一个擦除器在文档 D 中
超级会员免费看
订阅专栏 解锁全文
1022

被折叠的 条评论
为什么被折叠?



