5、语言建模方法中的完全任意段落检索

基于覆盖集的段落检索方法

最新推荐文章于 2025-08-21 12:34:49 发布

jupyter5notebook

最新推荐文章于 2025-08-21 12:34:49 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：信息检索前沿探析文章标签：语言建模段落检索覆盖集排序

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jupyter5notebook/article/details/153395238

信息检索前沿探析专栏收录该内容

73 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语言建模方法中的完全任意段落检索

1. 覆盖集排序

在段落检索中，覆盖（Cover）是一个重要的概念。覆盖的定义如下：
- 定义1（覆盖） ：覆盖是一种特殊的段落，该段落边界上的所有词项都是查询词项。例如，对于文档 “abbbcccbbddaaa”，将 a、b、c、d 视为词项，当查询 Q 包含 c 和 d 时，bbbcccbb、abbb 和 ddaaa 不是覆盖，而 cccbbdd、cbbdd、c、d、cc、dd 是覆盖。

设 SC(D) 为文档 D 中所有覆盖的集合，那么最佳段落是覆盖这一关系可以用以下等式表示：
[
\max_{P \in SC(D)} Score(Q,P) = \max_{P \in SP_{COMPLETE}(D)} Score(Q,P)
]

为了找到满足上述等式的检索函数类别，我们引入了长度归一化评分函数的概念。
- 定义2（长度归一化评分函数） ：设 c(w,D) 为词项 w 在文档 D 中的频率，|D| 为文档 D 的长度。假设对于文档 D1 和 D2，所有查询词项的词频相同，即 c(q,D1) = c(q,D2)。如果评分函数产生的 Score(Q,D) 与文档 D 的长度成反比，即当 |D1| < |D2| 时，Score(Q,D1) > Score(Q,D2)，则称 Score(Q,D) 为长度归一化评分函数。

我们对最佳段落做了如下合理假设：
- 假设1（最佳段落中查询词项出现的最低要求） ：最佳段落应至少包含一个查询词项。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。