Re25：读论文 Lecut+JOTR Incorporating Retrieval Information into the Truncation of Ranking Lists in the

本文链接：https://blog.youkuaiyun.com/PolarisRisingWar/article/details/126138304

本文介绍了一种名为LeCut的模型，专为法律案例检索中的排序列表截断设计，利用检索上下文信息和注意力机制优化截断决策。同时，提出JOTR框架，通过整合截断和检索任务，提升整体搜索效率。研究涵盖了数据集、基准对比和实验结果，展示了在法律文档复杂场景下的性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

诸神缄默不语-个人优快云博文目录

论文名称：Incorporating Retrieval Information into the Truncation of Ranking Lists in the Legal Domain
论文SIGIR官方下载地址：https://dl.acm.org/doi/abs/10.1145/3477495.3531998（有会议官方的讲解视频）
官方GitHub项目：myx666/LeCut: Source Code for “Incorporating Retrieval Information into the Truncation of Ranking Lists for Better Legal Search”, SIGIR22

本文是2022年SIGIR论文。
本文关注法律领域（文档复杂、广泛，浏览检索结果的代价很高）信息检索（本文关注案例检索任务，即根据query案例，从candidate案例语料中检索相关案例）中截断排序列表的问题（The truncation of ranking lists predicted by retrieval models）。
现存方法不够有效，因为仅考虑了简单的文档统计信息，没有充分捕获排序列表中的上下文信息。此外还将截断任务视作独立任务，而没有结合在整个排序过程中，这使截断在现实系统中可用性被减弱。
因此本文提出LeCut模型，用于法律案例检索任务中的排序列表截断。它利用检索任务的上下文特征来捕获文档间的语义相似性，用注意力机制来决定最佳截止位置。
本文还基于LeCut模型提出了 Joint Optimization of Truncation and Reranking (JOTR) 框架，用以同时提升截断和检索任务的表现效果。

1. Background & Motivation

截断任务是为了平衡检索模型的表现力和效率。

案例检索任务查看排序列表中的内容比一般检索任务更费力，因为1. 用户倾向于检查更多搜索引擎返回的结果，以获取充分信息，统计信息见下图。2. 法律文书更长、更难读。
在这里插入图片描述
因此在案例检索任务中做截断是有意义的。

以前的截断模型主要关注传统ad-hoc检索任务traditional ad-hoc retrieval tasks¹，仅使用排序分数和简单的文档特征（如文档长度、术语频率）为输入，忽略了建模过程中的高级文档语义。
LeCut则利用了检索任务中的隐藏层特征作为额外信息，用平行框架处理检索特征，以识别文档和排序列表级别的query-文档相似性。然后用RNN+Transformer层+positional embeddings捕获排序列表的序列依赖。
LeCut是第一个利用检索模型中语义特征和上下文信息的截断模型。
检索任务和截断任务都关注识别相似文档，因此彼此收集到的信息互有裨益。因此本文提出了JOTR框架联合优化这两个模型，分别用输出作为对方任务的新特征。为了将LeCut信息应用到法律检索模型上，用映射函数将LeCut原始输出转换为合理的截断特征，以加强检索任务。

本文通过改进已有指标构建了新的评估指标。

2. 模型介绍

在这里插入图片描述
$c_i$ 表示在位置 $i$ 截断排序列表的概率。

2.1 LeCut

在这里插入图片描述

2.1.1 Feature Preparation

从query-文档对中抽取输入特征。
以前的方法大多用相似度和文档统计特征。
而LeCut抽取：相似度得分，文档统计特征（文档长度+相邻文档的TFIDF相似度），检索任务中句子级别的嵌入。
这个TFIDF是用所有candidates作为语料，然后计算每个candidate的相似度（二维向量）：
在这里插入图片描述
（第一个和最后一个的开头和结尾都是1，感觉有哪里怪怪的）

除固定的文档统计信息外，queries-candidates对之间的动态信息也可能有效。
用在检索数据集上用NSP任务微调过的Transformer，喂query-candidate对，用最后一层隐藏层表征作为句子级别的嵌入。

2.1.2 Truncation Model

Input Layer
1. 输入：相似度得分 $r_i$ ，文档统计特征 $d_i$ ，句子级别的嵌入 $s_i$
2. 为了利用排序列表中的 list-wise relations
  
  排行更高的文档应该有更多attention。
Encoding Layer：利用序列依赖

（ $d_i$ 有3维）
Attention Layer
用Transformer encoder表示排序列表中的文档嵌入。用其多头注意力机制捕获文档间的长距上下文信息。
用可学习的additional positional embeddings $p$ （用于区分不同位置的文档）替换原始的sinusoidal positional values
Decision Layer

DCG是一种搜索引擎算法的衡量指标可以直接参考百度百科：DCG_百度百科
在损失函数里怎么加这种离散指标我也很震惊
（ $y_i$ 是文档 $i$ 的相似度标签）