Dense Passage Retrieval for Open-Domain Question Answering-优快云博客

文章讨论了一种基于BERT的文本检索模型，使用独立的BERT模型作为问题和文档编码器。模型利用内积作为相似性度量，并通过FAISS库进行预计算和检索。训练过程涉及度量学习，选择合适的正负例对优化表示。实验表明，结合batch内的gold负例和BM25负例能取得最佳效果，使用1e-5的学习率和Adam优化器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型结构

$E_P(·)$ 将文本映射为 $d$ 维向量，并用它为文档集构建索引。
$E_Q(·)$ 将问题映射为 $d$ 维向量，并用它检索 $k$ 个对应的文章。
定义相似性 $sim(q,p)=E_Q(q)^TE_P(p)$

如何选择相似性？
实际上有很多种相似度量函数，但我们为了能够预先计算文档的表示，相似函数必须是可分解的。（可分解函数 $f (x, y)$ 可以表示为一些列函数的和： $f(x,y)=\sum^I_i{u_i(x)*v_i(y)}$ ）。
内积现在有很好的工具支持（FAISS）。
再经过实验搜索，发现内积几乎是最优解。因此确定了内积函数。

编码器 $\quad$ 使用后两个独立的BERT模型分别表示问题编码器和文档编码器。
推理 $\quad$ 在推理阶段用 $E_P$ 将文章编码并用FAISS建立索引。

3.2 训练

将编码器训练为一个度量函数是度量学习的范畴（参考Metric learning: A survey.），它让相关的问题-文档对具有相近的表示。记文档为在这里插入图片描述，其中q为问题，p为段落；带+表示正例，-表示负例。损失函数为
。
正负例 $\quad$ 通常正例很容易选取，负例的选取是容易被人忽视的。好的负例对训练索引器至关重要。论文采用以下方法选择负例。