一种比chunking更高效的RAG检索策略,(非常详细)从零基础到精通,精通收藏这篇就够了!

RAG框架的核心在于将文档分割成独立的块(chunks),然后通过检索过程识别与给定查询相关的块,并将检索到的块(以及查询)作为提示传递给合成模型LLM以生成所需的响应。然而,检索步骤可能成为性能瓶颈,因为错误的块可能导致合成LLM生成错误的响应(garbage in,garbage out)。

为了解决这个问题,提出了一种零样本(zeroshot)适应标准密集检索步骤的方法,以提高块的准确召回(recall)。具体来说,将块分解为原子陈述(atomic statements),然后基于这些原子生成一组合成问题(以块作为上下文),通过密集检索找到与用户查询最接近的合成问题集合及其相关的块

使用原子单位基于问题的检索,用于企业RAG

各环节(query改写,原子化,问题生成)的prompt

使用了重新格式化的SQuAD数据集来评估RAG框架。该数据集包含2,067个块和10,570个查询

使用原子单位进行检索可以显著提高检索的准确率。特别是,通过生成针对原子的合成问题,可以进一步提高检索的准确率。例如,在R@1(即正确块在检索结果中排名第一的比例)上,使用结构化原子文本的检索准确率从65.5%提高到70.2%,而_使用合成问题进一步提高到73.8%_。

Atom-Structured:使用块的自然结构,将每个句子视为一个独立的原子。Atom-Unstructured:原子生成系统(例如,针对指令微调的大型语言模型)被要求生成原子陈述,以最好地捕捉块中的所有信息。

这种方法不需要额外的训练,可以零样本地应用于企业RAG系统中,以提高对公司文档的自动化查询性能。未来的工作将扩展到不同领域的数据集,包括金融和医疗领域。

Question-Based Retrieval using Atomic Units for Enterprise RAG``https://github.com/OpenBMB/MiniCPM-Vhttps://arxiv.org/pdf/2405.12363
## AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享

四、AI大模型商业化落地方案

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

<think>嗯,用户现在提出了一个关于RAG检索增强生成)的需求,看起来用户对检索增强生成的关键词和实现方法感兴趣。首先,我需要回顾一下之前的对话历史。之前用户似乎提到了系统级指令,要求使用特定的LaTeX格式和中文回答,还要生成相关问题。不过当前的查询集中在RAG技术上。用户明确提到要参考站内引用,但系统说明这些引用仅供参考,真正需要关注的是用户当前的问题。用户现在的问题是查找与RAG相关的关键词或实现方法。因此,重点应该放在RAG的核心概念、技术术语以及常用的实现方式上。首先,我需要确定用户可能的背景。用户可能是开发者、研究人员或者刚接触RAG的技术爱好者。由于用户询问关键词和实现方法,可能是在做项目或研究前的资料收集。用户可能希望了解如何搭建一个RAG系统,或者需要关键术语来进一步搜索资料。接下来,我需要梳理RAG的关键组成部分。检索增强生成通常分为检索和生成两个阶段。在检索阶段,重要的技术包括嵌入模型(如BERT、SentenceTransformers)、向量数据库(如Faiss、Milvus、Chroma)、以及检索策略(如密集检索、混合检索)。生成阶段则涉及语言模型(如GPT、Llama)和集成方式。此外,预处理和优化方法也很关键,比如分块策略和查询重写。用户可能还需要具体的实现方法。比如,使用LangChain这样的框架可以简化流程,或者直接通过API调用嵌入模型和向量数据库。是否要提到开源工具和云服务?比如HuggingFace的Transformers库,或者云服务如AzureAISearch,这些对实现有帮助。另外,评估指标如检索召回率、生成相关性也是用户可能关心的,但用户的问题偏向于实现而非评估,可能需要优先前者。需要判断用户是否需要区分基础实现和高级优化。比如,基础的流程是文本嵌入->向量检索->结果传递给LLM生成。而高级方法可能包括迭代检索、上下文压缩或检索微调。但在回答中应该覆盖这两层,同时将基础部分放在前面,高级部分作为扩展。关键词方面,用户可能希望得到术语列表。比如嵌入模型、向量数据库、大语言模型、分块策略RAG框架等。还要注意术语的英文对应词,如“hybridretrieval”对应混合检索,方便用户进一步搜索英文资料。最后,生成的相关问题需要考虑用户可能的进一步需求。比如应用场景(客服、文档摘要)、不同方法的优缺点(成本、准确性)、评估方法或框架选择等。这样用户可以根据回答深入探究特定方向。需要确保回答符合之前的系统指令:行内公式用$...$(虽然RAG可能较少需要公式,但如有相关指标如召回率$R@k$可以应用),独立公式用$$...$$。另外,引用文献时添加脚注,如引用原始RAG论文[^1]。同时使用中文,结构清晰分点说明。</think> 以下是与 **RAG检索增强生成)** 相关的核心关键词和实现方法详解,结合最新技术实践整理: --- ### **一、核心关键词** 1. **检索阶段** - **嵌入模型**:Sentence Transformers、BERT、BGE - **向量数据库**:Faiss、Milvus、Chroma、Pinecone - **检索策略**:密集检索(Dense Retrieval)、稀疏检索(BM25)、混合检索(Hybrid) - **查询重写**:Query Expansion、HyDE(假设性文档嵌入)[^1] 2. **生成阶段** - **大语言模型(LLM)**:GPT-4、Llama 3、Claude - **上下文注入**:Prompt Engineering、ReRanking(如Cohere Rerank) - **知识增强**:External Knowledge Integration、Self-RAG[^2] 3. **系统优化** - **分块策略**:滑动窗口(Sliding Window)、语义分块(Semantic Chunking) - **评估指标**:检索召回率(Recall@k)、答案相关性(BERTScore) - **迭代检索**:Reciprocal Rank Fusion(RRF)、多步检索(Multi-step Retrieval) --- ### **二、主流实现方法** #### **基础流程** ```mermaid graph LR A[用户提问] --> B(查询嵌入) B --> C{向量数据库检索} C --> D[Top-k相关文档] D --> E[文档注入LLM上下文] E --> F[LLM生成答案] ``` #### **关键技术实现** 1. **LangChain框架(Python)** ```python from langchain_community.vectorstores import FAISS from langchain_community.embeddings import HuggingFaceEmbeddings # 1. 加载嵌入模型 embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-base-zh") # 2. 构建向量数据库 docs = ["文本1", "文本2", ...] # 知识库文档 vectorstore = FAISS.from_texts(docs, embeddings) # 3. RAG流程 retriever = vectorstore.as_retriever() results = retriever.get_relevant_documents("用户问题") ``` 2. **LlamaIndex优化方案** - 支持 **分层索引**(知识图谱+向量索引) - 自动查询路由(Query Routing)到最佳数据源 - 细粒度访问控制(按权限过滤文档) 3. **高级技术** - **FLARE架构**:主动检索机制(预测知识缺口触发检索) - **RA-DIT框架**:联合训练检索器与生成器[^3] - **DSPy编程模型**:声明式优化RAG流水线 --- ### **三、开源工具推荐** | 工具名称 | 核心功能 | 适用场景 | |----------------|------------------------------|-------------------| | **LlamaIndex** | 结构化/非结构化数据索引 | 企业知识库 | | **Haystack** | 端到端流水线构建 | 研究原型开发 | | **Quivr** | 本地化私有部署 | 敏感数据处理 | | **Unstructured**| PDF/PPT复杂文档解析 | 多格式文件处理 | --- ### **四、关键挑战与解决方向** 1. **文档边界问题** → 解决方案:动态上下文整合(Dynamic Context Integration) 2. **噪声干扰** → 解决方案:ReRank模块(如BAAI的bge-reranker) 3. **知识实时性** → 解决方案:增量索引新(Delta Indexing) 4. **多模态检索** → 解决方案:CLIP跨模态嵌入[^4] ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值