使用多向量索引提升检索精度——基于Dense X Retrieval的实践指南

最新推荐文章于 2025-11-26 15:40:52 发布

原创

最新推荐文章于 2025-11-26 15:40:52 发布 · 392 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python

技术背景介绍

在信息爆炸的时代，如何从海量数据中高效地检索出相关信息，是许多AI应用面临的挑战。传统的检索方法通常依赖于单一向量来表示文本信息，但这种方法在面对复杂多样的信息时，可能会导致检索精度的不理想。为了解决这一问题，Chen等人提出了Dense X Retrieval方法，通过生成和使用"命题"多向量来提高检索精度。在本文中，我们将详细介绍这一策略，并演示如何在实际项目中应用。

核心原理解析

Dense X Retrieval的核心思想是：对于每个输入文本，利用大语言模型(LLM)生成去上下文化的命题(propositions)，这些命题可以独立地进行向量化处理。这种多向量索引策略允许检索系统在更多维度上匹配信息，从而显著提高检索的精度和召回率。

代码实现演示(重点)

环境准备

首先，我们需要配置环境以便正确调用相关的API。请设置OPENAI_API_KEY以访问必要的OpenAI资源。

创建索引

接下来，使用poetry进行依赖安装和索引创建：

poetry install
poetry run python propositional_retrieval/ingest.py

使用LangChain CLI进行项目配置

确保安装LangChain CLI：

pip install -U

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qahaj

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深入解析密集段落检索（Dense Passage Retrieval）及其实现

2501_90323865的博客

07-10

106

摘要：密集段落检索（DPR）是开放域问答系统的关键改进，通过低维连续向量表示问题与段落，克服传统词袋方法在语义匹配上的局限。DPR使用BERT模型生成嵌入，通过点积计算相似性，并优化负例采样策略（结合BM25和批量内负例）提升效果。基于Simple Transformers库的实现流程包括配置模型、训练及推理，显著提高了相关段落检索效率。实验表明，DPR在语义相关性捕捉方面表现优异，为问答系统提供了更精准的上下文筛选方案。

参与评论您还未登录，请先登录后发表或查看评论

多模态向量检索技术（Multimodal Vector Retrieval）

MrLi的博客

09-06

1053

多模态向量检索技术（Multimodal Vector Retrieval）是指通过将不同类型的输入数据（如文本、图像、音频、视频等）转化为相应的高维向量，并在向量空间中进行相似性检索的技术。这种技术在处理多模态数据（例如图文结合、音频与视频等）时尤为重要，常用于推荐系统、搜索引擎、语义搜索和内容理解等应用场景。

【RAG】Dense X Retrivel：合适的检索粒度对RAG的重要性（浅看命题粒度的定义及分解方法）

余俊晖，NLP炼丹师，目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。

07-03

1538

在传统的密集检索中，常见的检索单元包括文档、段落或句子。然而，这些单元的选择可能会影响检索性能和下游任务的效果。例如，段落可能包含与问题无关的额外细节，而句子可能过于复杂或缺乏必要的上下文信息。为了解决这些问题，提出了使用“命题”作为新的检索单元。命题在文中被定义为文本中的原子表达，每个命题都包含一个独特的事实片段，并以简洁、自包含的自然语言格式呈现。例如，在讨论比萨斜塔的倾斜角度时，可以提取出以下命题：“比萨斜塔现在大约倾斜3.99度。”这个命题简洁地回答了问题，并且包含了必要的上下文信息。

【RAG 论文】Dense X 检索：将“命题”作为检索粒度

VLyb

05-08

1778

目前的研究发现，对于检索粒度的选择会显著影响检索任务以及下游任务的表现。目前的检索方法大多以文档或者固定大小的 chunk 作为检索粒度，本论文提出以“命题”（proposition）作为检索粒度来进行检索。命题在本论文中被定义为如下：Propositions are defined as atomic expressions within text, each encapsulating a distinct factoid and presented in a concise, self-contain

【LLM大模型】最优化大模型效果之 RAG（二）：索引的优化策略

2401_82469710的博客

07-09

711

在正式开始前，让我们先回忆一下最基本的 RAG 系统：当用户进行提问时，RAG 系统首先会根据问题从预先构建好的数据库检索相关的文档，并返回给大模型进行生成。在这个过程中，我们一共做了三件事儿，分别是索引、检索和生成。为了获得更好的效果，需要对这三个环节进行针对性的优化，从而提高 RAG 系统的性能。Naive RAG 的过程接下来，我们会重点探讨索引环节的问题和优化方法。索引的过程就是将知识保存起来的过程。通常来说，知识存储的过程需要经过解析、切片和构建索引等三个过程。

Advanced RAG 05：探讨基于文本内在语义信息的数据分块方法

Baihai_IDP的博客

04-30

1992

但是，如果在这些小数据块（small chunks）中找不到完整的信息，递归检索器（recursive retriever）会将相关的大数据块（larger chunks）传递到生成阶段（generation stage）进一步处理，就像我们在书中某个小节或段落查找资料时，如果需要更多信息，就会翻到相关的章节或整本书一样。通过 Semantic chunking（译者注：一种根据文本中的语义信息将文本分成有意义的片段或块的过程），希望每个数据块所包含的信息在语义上相对独立，以便更好地进行分析和处理。

LLM之RAG实战（三十）| 探索RAG语义分块策略

wshzd的博客

03-15

3163

proposition被定义为文本中的原子表达式，每个命题都封装了一个不同的事实，并以简洁、自包含的自然语言格式呈现。然后，将多个连续句子的这些向量表示输入到Bi-LSTM（图4（b））或另一个BERT（图4），以预测每个句子是否是文本分割边界。最常用的分块方法是基于规则的，采用固定的块大小或相邻块的重叠等技术。然而，这种方法依赖于LLM，这是相对昂贵的。然而，在实际应用中，由于严格的预定义规则（块大小或重叠部分的大小），基于规则的分块方法很容易导致检索上下文不完整或包含噪声的块大小过大等问题。

使用多向量索引提高检索精度：深入探讨命题检索技术

tt_jishu的博客

10-10

605

命题检索技术为信息检索系统提供了一种新的思路，通过细粒度的文本处理和多向量索引，可以有效地提升检索精度。希望这篇文章可以帮助您更好地理解和使用这一技术。

提升检索精度的多向量索引策略：深入了解命题检索

stjklkjhgffxw的博客

09-27

651

命题检索提供了一种创新的提高检索精度的方法。通过多向量索引策略，我们可以在复杂查询中获得更准确的结果。LangChain 文档OpenAI 官方指南。

提升检索准确率：使用多向量索引策略实现高效命题检索

rtykjhg的博客

12-19

966

命题检索是一种将检索对象分解为更小的、独立的语义单元（即“命题”）进行检索的方法。这种方法有效地减少了上下文依赖，提高了检索的语义准确性。通过使用多向量索引策略，我们可以有效地提高信息检索的准确性。建议进一步阅读Chen等人的研究论文，了解更多关于检索粒度和命题生成的理论背景。LangChain 文档OpenAI API 文档Dense X Retrieval 论文假设该论文的arXiv链接为此。

LLM RAG系列，一文详解RAG，看完这篇你必会（文末福利）

DEVELOPERAA的博客

06-17

6922

本文介绍了RAG以及RAG pipeline的整个流程，包括请求转换、路由和请求构造、索引和检索、生成和评估等，其中引用了大量有价值的论文。

Python自动化测试框架开发

最新发布

2509_93945719的博客

11-26

362

封装requests时踩过坑，最初简单包装成通用方法，后来发现不同模块需要不同的超时策略和重试机制。框架开发过程中最大的体会是：好的设计不是一次性完成的，而是在不断踩坑、重构中迭代出来的。记住，自动化测试的终极目标不是追求100%覆盖率，而是用最小成本快速发现质量问题。最直观的变化是测试周期从原来的3天缩短到8小时，版本发布再也不用全员熬夜了。pytest的夹具机制比unittest灵活太多，特别是parametrize参数化，能轻松实现数据驱动。决定动手搭个统一的测试框架，把乱七八糟的脚本规范起来。

Java总结进阶之路（基础二）

2509_94006474的博客

11-24

796

提示：java总结学习之路。

Python在机器学习中的模型训练

2509_93937153的博客

11-26

212

上周对比SVM和随机森林时，用Pipeline把预处理和训练步骤串起来，cross_val_score直接出十折交叉验证结果，整个实验可复现性极高。数据预处理这块绝对是重头戏。最近在做回归项目，r2_score和mean_squared_error这几个指标函数随调随用，省去了自己实现的麻烦。但平心而论，在常规业务场景下，从数据探索到模型上线的整个生命周期，Python的生态链确实做到了无缝衔接。很多库的默认参数就够用，想要精细调控又能深入底层，这种灵活性才是我们坚持用Python搞机器学习的根本原因。

【TensorRT】20250826 日志 - 开启FP16的问题

GG_Bruse的博客

11-23

255

博主最近遇到一个新模型需要转 Engine 的任务，打算采用 Ckpt - ONNX - Engine的方式，遇到了一些小问题，记录一下。

15：00开始面试，15：06就出来了，问的问题有点变态。。。

2301_78843735的博客

11-24

612

【摘要】本文分享了一位软件测试工程师的求职经历和面试经验。文章首先描述了作者遭遇降薪后寻求新工作的过程，并反思了在面试中因基础知识不足而失利的情况。随后系统整理了软件测试岗位的常见面试知识点，涵盖16个技术栈：包括测试理论、Linux、MySQL、Web/API/App测试、Python基础、性能测试等核心内容。其中详细列举了各技术栈的高频面试题，如测试步骤设计、Linux命令使用、Python编程题、MySQL优化等。最后提到完整的面试宝典包含近200页内容，旨在帮助求职者高效准备面试，提升通过率。

收藏！软件测试面试题

2401_86705770的博客

11-26

236

作为一位过来人也是希望大家少走一些弯路，如果你不想再体验一次学习时找不到资料，没人解答问题，坚持几天便放弃的感受的话，在这里我给大家分享一些自动化测试的学习资源，希望能给你前进的路上带来帮助。

Python全栈开发项目——AI智能聊天机器人

qiao_yue的博客

11-24

805

本项目实现了AI聊天功能，具有语音输入和聊天背景自定义等亮点功能

基于Python与Go构建云原生微服务自动化运维平台的架构设计思路实践策略与性能优化方法全流程解析

2501_94114213的博客

11-26

386

Python 提供灵活的任务调度与编排能力，Go 提供高并发、高吞吐的任务执行与采集能力。两者结合构建的云原生微服务运维平台能够在大规模环境下实现：自动化高可靠弹性扩展可观测高性能随着企业上云进程加速，Python + Go 的混合运维平台将成为云原生运维的标准实践方案。