语言建模方法中的完全任意段落检索
1. 覆盖集排序
在段落检索中,覆盖(Cover)是一个重要的概念。覆盖的定义如下:
- 定义1(覆盖) :覆盖是一种特殊的段落,该段落边界上的所有词项都是查询词项。例如,对于文档 “abbbcccbbddaaa”,将 a、b、c、d 视为词项,当查询 Q 包含 c 和 d 时,bbbcccbb、abbb 和 ddaaa 不是覆盖,而 cccbbdd、cbbdd、c、d、cc、dd 是覆盖。
设 SC(D) 为文档 D 中所有覆盖的集合,那么最佳段落是覆盖这一关系可以用以下等式表示:
[
\max_{P \in SC(D)} Score(Q,P) = \max_{P \in SP_{COMPLETE}(D)} Score(Q,P)
]
为了找到满足上述等式的检索函数类别,我们引入了长度归一化评分函数的概念。
- 定义2(长度归一化评分函数) :设 c(w,D) 为词项 w 在文档 D 中的频率,|D| 为文档 D 的长度。假设对于文档 D1 和 D2,所有查询词项的词频相同,即 c(q,D1) = c(q,D2)。如果评分函数产生的 Score(Q,D) 与文档 D 的长度成反比,即当 |D1| < |D2| 时,Score(Q,D1) > Score(Q,D2),则称 Score(Q,D) 为长度归一化评分函数。
我们对最佳段落做了如下合理假设:
- 假设1(最佳段落中查询词项出现的最低要求) :最佳段落应至少包含一个查询词项。
基于覆盖集的段落检索方法
超级会员免费看
订阅专栏 解锁全文
9

被折叠的 条评论
为什么被折叠?



