RAG技术演进与研究进展

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

《大模型应用开发 鲍亮,李倩 清华大学出版社》【摘要 书评 试读】- 京东图书

目录

1. 早期探索:基于规则与统计的检索式问答

2. 深度学习驱动的技术革新

3. RAG架构的形成与确立

4. 近年关键进展(2023-至今)


检索增强生成技术的发展并非一蹴而就,而是在自然语言处理与信息检索两大领域的长期探索中逐步成型的。这一技术的演进历程,既体现了学术研究对技术瓶颈的持续突破,也反映了工业界对智能应用落地的迫切需求。从早期基于规则的简单检索式问答系统,到如今融合深度学习的复杂RAG架构,其发展轨迹见证了人工智能技术从理论研究向实际应用的深度转化。

1. 早期探索:基于规则与统计的检索式问答

RAG技术的早期雏形可追溯至20世纪末的信息检索与问答系统研究。在当时的技术环境下,计算机的运算能力和存储容量相对有限,研究人员主要依赖人工编写规则或基于统计的关键词匹配技术,通过构建简单的知识库和检索算法实现问答功能。

以企业内部FAQ系统为例,开发人员需要预先梳理常见问题,并为每个问题精心设定对应的答案,构建起问题与答案的映射关系。当用户输入问题时,系统便逐字逐句地在用户提问中搜索预先设定的关键词,一旦找到匹配的关键词,就返回与之对应的答案。这种方式在特定领域,如企业产品常见问题解答、简单的技术支持场景中,确实具有一定的实用性,能够快速解决一些常规问题,为用户提供便捷的服务。

然而,这种基于规则的方法存在着明显的局限性。由于缺乏对语义的深入理解能力,它只能机械地匹配关键词,一旦用户的问题表述较为复杂,或者使用了与预设关键词不同但语义相近的词汇,系统往往就无法准确理解用户的意图,从而难以返回正确的答案。例如,当用户询问“产品的售后维修流程是怎样的”,而知识库中预设的关键词是“产品维修售后步骤”,由于关键词不完全匹配,系统可能就无法给出有效的回答。

统计语言模型的出现为检索式问答带来了一定程度的改进。基于TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文件频率)的检索算法,通过量化词语在文档中的重要性,为检索过程提供了更科学的依据。TF-IDF算法的核心思想是,一个词语在一篇文档中出现的频率越高,同时在其他文档中出现的频率越低,那么这个词语就越能代表该文档的主题。例如,在一篇关于苹果产品介绍的文档中,“苹果”“iPhone”“iOS”等词汇出现的频率较高,且在其他不相关文档中出现频率较低,那么这些词汇的TF-IDF值就会较高,在检索时就更有可能被匹配到。​

BM25算法作为TF-IDF算法的典型代表,在TREC(Text Retrieval Conference)等评测任务中展现出了良好的性能。它在传统TF-IDF算法的基础上,进一步考虑了文档的长度、词语在文档中的位置等因素,通过对这些因素进行加权计算,能够更有效地匹配用户查询与知识库内容,从而提高了检索的准确性和召回率。在TREC的实际评测中,采用BM25算法的检索系统在处理大规模文档集时,能够更精准地找到与用户查询相关的文档,为后续的检索技术发展奠定了坚实的基础。

然而,这些基于统计的方法本质上仍属于浅层语义处理,它们仅仅是从词语的出现频率和文档的表面特征来进行匹配和检索,无法深入理解文本背后深层次的语义信息。对于一些需要理解语义关系、进行逻辑推理的复杂问题,如“苹果公司的产品与三星公司的产品在操作系统方面有哪些主要区别”,基于统计的方法往往显得力不从心,难以给出准确、全面的回答。

2. 深度学习驱动的技术革新

随着深度学习在自然语言处理领域的广泛应用,RAG技术迎来了具有里程碑意义的关键转折点。2013年,Word2Vec的横空出世,犹如一颗璀璨的新星照亮了语义检索的道路。它首次创新性地实现了将词语映射为连续向量的分布式表示,打破了传统基于离散符号的语义表示方式的局限。

在Word2Vec之前,文本中的词语通常被表示为one-hot向量,这种表示方式虽然简单直观,但存在维度灾难和语义孤立的问题。例如,对于一个包含10000个词语的词汇表,每个词语都需要用一个10000维的向量来表示,且向量中只有一个位置为1,其余位置均为0,这不仅导致向量维度极高,计算成本巨大,而且无法体现词语之间的语义相关性。而Word2Vec通过在大规模文本语料上进行训练,学习到了词语之间的语义关系,并将每个词语映射为一个低维的连续向量。在这个向量空间中,语义相近的词语其向量表示也更加接近。例如,“国王”和“王后”、“汽车”和“轿车”等语义相关的词语,它们在Word2Vec生成的向量空间中的位置也会比较靠近,这为语义检索提供了全新的思路和方法。

随后,预训练语言模型如BERT、GPT系列的诞生,更是如同一股强大的风暴,彻底改变了自然语言处理的技术格局。这些模型通过在海量的文本语料上进行无监督预训练,学习到了极其强大的语言表征能力。BERT采用了双向Transformer架构,能够同时捕捉文本前后文的信息,在自然语言理解任务中取得了惊人的成绩。例如,在情感分析任务中,BERT能够准确地判断出文本所表达的情感倾向,无论是积极、消极还是中性;在文本分类任务中,它也能将各种类型的文本准确地分类到相应的类别中[16]。

GPT系列模型则在语言生成方面展现出了卓越的能力。从GPT-1到GPT-4,模型的规模不断扩大,参数量呈指数级增长,其生成的文本质量也越来越高,越来越接近人类的表达水平。它们能够根据给定的提示或上下文,生成连贯、流畅且富有逻辑性的文本,无论是撰写文章、故事,还是进行对话回复,都表现得相当出色。这些预训练语言模型的出现,使得基于语义的检索与生成成为了可能,为RAG技术的进一步发展提供了坚实的技术支撑。

在这一阶段,研究人员敏锐地察觉到了深度学习模型在检索与生成过程中的巨大潜力,开始积极尝试将其引入到相关研究中。DPR(Dense Passage Retrieval)技术便是这一尝试的杰出成果之一。DPR利用预训练模型将问题和文档编码为向量,通过计算向量之间的相似度来进行检索。与传统的基于稀疏向量的检索方法不同,DPR生成的向量是稠密的,能够更全面、更准确地捕捉文本的语义信息。在开放域问答任务中,DPR相比传统的稀疏检索方法取得了显著的性能提升。例如,在处理一些需要从大量文档中查找答案的问题时,DPR能够更快速、准确地找到与问题相关的文档段落,大大提高了问答系统的效率和准确性。

与此同时,生成式预训练模型的迅猛发展也使得文本生成质量得到了极大的改善。它们能够生成语法正确、语义连贯的文本,在许多应用场景中发挥了重要作用。然而,这些模型在处理知识密集型任务时,依然暴露出了一些问题,如知识更新困难和事实性错误等。由于模型的知识主要来源于预训练阶段所接触的语料库,一旦语料库中的知识过时或存在错误,模型在生成相关内容时就可能会出现偏差。例如,在回答关于最新科技成果或时事热点的问题时,模型可能因为缺乏最新的知识而给出不准确或过时的答案;在涉及一些专业领域的知识时,也可能因为对专业概念的理解不准确而产生事实性错误。

3. RAG架构的形成与确立

2020年前后,随着Lewis等人提出Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks,检索增强生成(RAG)的概念被正式确立,并如同星星之火,迅速在学术界和工业界引发了广泛的关注和研究热潮,成为人工智能领域的一大焦点。

RAG架构的核心创新之处在于,它巧妙地将检索模块与生成模块分离,构建了一种动态知识调用机制。这种机制有效地打破了传统生成模型在知识获取方面的瓶颈,为模型的性能提升开辟了新的路径。在传统的生成模型中,模型只能依赖于预训练阶段所学习到的固定知识,无法实时获取最新的、多样化的知识信息。而RAG架构通过引入外部知识库,使得模型在生成内容时,能够根据用户的查询实时地从知识库中检索相关信息,并将这些信息融入到生成过程中。

以问答系统为例,当用户提出一个问题时,RAG系统的检索模块首先会在外部知识库中进行搜索,筛选出与问题相关的文档或知识片段。这个知识库可以是包含大量文本信息的文档库,也可以是结构化的知识图谱等。然后,生成模块会以检索到的知识为基础,结合自身的语言生成能力,生成针对用户问题的回答。这种架构设计既充分保留了预训练模型强大的语言生成能力,又通过外部知识库引入了实时、准确的知识,使得模型在处理各种任务时能够更加得心应手[17]。

在问答任务中,RAG架构能够显著提高回答的准确性和可靠性。例如,当用户询问“2024年诺贝尔物理学奖的获得者有哪些,他们的主要贡献是什么”时,RAG系统能够迅速从外部知识库中检索到关于2024年诺贝尔物理学奖的最新信息,包括获奖者名单、他们的研究成果和贡献等,然后生成准确、详细的回答。而传统的生成模型由于缺乏实时知识更新的能力,可能无法给出最新的信息,或者因为对相关知识的理解不准确而导致回答错误。

在摘要生成任务中,RAG架构也能发挥重要作用。它可以从长篇文档中检索出关键信息,并根据这些信息生成简洁、准确的摘要。例如,对于一篇关于科技发展趋势的长篇报告,RAG系统能够通过检索筛选出报告中的核心观点、重要数据和关键结论,然后生成一份精炼的摘要,帮助用户快速了解报告的主要内容[18]。

在对话系统中,RAG架构能够使对话更加自然、流畅且富有信息。当用户与对话系统交流时,系统可以根据对话的上下文和用户的问题,从知识库中检索相关信息,为用户提供更有针对性的回答。比如在一个关于旅游咨询的对话中,用户询问“去北京旅游有哪些必去的景点”,RAG系统可以从知识库中检索出北京的著名景点信息,并结合用户的偏好和需求,给出个性化的推荐和详细的介绍,从而提升用户的对话体验。

4. 近年关键进展(2023-至今)

2023年,RAG技术热度如火箭般飙升,一跃成为人工智能领域的研究焦点。尽管大模型在众多自然语言处理任务中展现出了令人惊叹的卓越性能,然而,在事实性问题回答方面,其短板也暴露无遗。斯坦福大学2023年的研究数据显示,大模型在这方面的错误率高达38%,这一数据无疑敲响了警钟,凸显了大模型在处理时效性、专业领域及长尾知识时存在的严重局限性[19]。在快速发展的信息时代,知识更新换代的速度极快,大模型若不能及时获取最新的知识,就难以准确回答关于时事热点、新兴技术等时效性较强的问题。在专业领域,如医疗、金融、法律等,由于知识的专业性和复杂性极高,大模型如果缺乏深入的专业知识储备,很容易出现错误的判断和回答。而对于一些低频、小众的长尾知识,大模型也常常因为训练数据的不足而无法提供准确的信息。正是在这样的背景下,RAG技术迎来了前所未有的发展机遇,其旨在将生成过程与外部知识检索动态结合的理念,为解决大模型的这些不足提供了一条切实可行的途径。

在这一时期,LangChain和Llama Index等工具和框架如同雨后春笋般积极投入到RAG技术的研究与实现中。Llama Index在2023年的RAG领域探索中成绩斐然,通过精心设计并提供高效的检索策略,以及对生成方法进行深度优化,使得RAG技术在学术界和工业界都崭露头角,大放异彩[20]。其高效的检索策略能够在海量的知识库中快速、精准地定位到与用户查询相关的信息,大大提高了检索效率;而优化后的生成方法则进一步提升了生成内容的质量,使其更加准确、连贯、符合逻辑。在学术界,Llama Index的相关研究成果为RAG技术的理论发展提供了有力的支持,推动了该领域的学术研究不断深入;在工业界,许多企业基于Llama Index开发出了实用的应用系统,如智能客服、智能文档分析等,为企业提高了工作效率,降低了成本,创造了显著的经济效益。

从技术层面来看,多模态融合成为了RAG技术发展的新趋势。随着CLIP、BLIP等多模态预训练模型的逐渐成熟,RAG系统开始具备理解图像、视频等非文本信息的能力,这无疑为其应用拓展了更为广阔的空间[21]。以ColPali项目为例,该项目创新性地探索用统一张量Rerank(重排序)实现跨模态检索排序,在跨模态检索的效果和效率方面都展现出了不俗的表现。在实际应用中,当用户输入一个包含文本和图像的查询时,ColPali项目能够利用统一张量Rerank技术,将文本和图像信息进行有效融合,从而更准确地检索到与用户需求相关的内容[22]。OpenAI发布的GPT4更是在多模态融合方面迈出了重要一步,它采用了全新的多模态对比预训练范式,将图文对齐任务进行巧妙拆解,使得模型能够深入学习并融合视觉语言特征,进而呈现出强大的“看图说话”能力。例如,当给定一张复杂的图片时,GPT4能够准确地描述图片中的场景、人物、物体以及它们之间的关系,生成详细、生动的文字描述,为用户提供丰富的信息[23]。

2024年,文档智能技术的蓬勃发展为RAG技术的进一步发展注入了强大动力。以PaddleOCR为例,它犹如一把精准的手术刀,能够对文档版面进行精确识别,并高效提取其中的关键信息。PaddleOCR采用了端到端视觉文档理解范式,通过联合训练光学字符识别(Optical Character Recognition,OCR)引擎和版面分析(Layout Analysis)引擎,实现了对图像和PDF等非结构化文档的“一键式”解析,大大简化了文档处理流程。其版面分析引擎利用卷积神经网络(Convolutional Neural Networks,CNN)骨干网提取视觉特征,经过可微分几何操作将这些特征投影到文本区域,再由递归神经网络(Recurrent Neural Networks,RNN)对文本区域信息进行建模输出。这种先进的技术架构使得PaddleOCR在文本检测和识别精度方面达到了SOTA(State-of-the-Art)水平,即当前最优水平[24]。

RAGFlow框架的DeepDoc模块更是将PaddleOCR与RAG系统进行了无缝集成,针对文档中的特殊区域进行了专门的优化识别,同时设计了数据增强策略,以提升模型的泛化性能。这一系列举措为信息抽取和检索提供了高质量的输入,有力地推动了多模态文档解析成为RAG系统的标配。在实际应用中,当处理一份包含大量图表、公式和文字的科研文档时,DeepDoc模块能够借助PaddleOCR的强大能力,准确识别文档中的各种元素,并将其转化为结构化的数据,为RAG系统的检索和生成提供丰富、准确的信息支持[25]。

检索技术在这一时期也取得了重大突破。Dmitry Krotov等人提出的ColBERT将查询-文档交互矩阵进行分解,通过巧妙的采样近似方法加速矩阵乘法,实现了亚毫秒级延迟的高质量语义排序。这一创新使得ColBERT能够轻松扩展到百亿规模语料,在处理大规模数据时的性能远超传统方法。基于张量的语义检索能力在多个RAG引擎中得以实装落地,阿里云等平台更是敏锐地察觉到这一技术的巨大潜力,将其封装为云服务,为企业和开发者提供了便捷、高效的语义检索解决方案。RAGFlow还通过查询分析(Query Analyze)实现自动提取关键词组合生成短语查询,进一步提升了检索准确率,混合检索逐渐成为RAG系统的常见配置。在实际的信息检索场景中,当用户输入一个复杂的查询时,RAGFlow能够通过查询分析来准确理解用户的意图,提取出关键信息,并生成合理的短语查询,结合多种检索技术,快速、准确地找到与用户需求相关的信息。

重排序器(Reranker)模块在优化检索结果方面的重要性日益凸显。当前主流的Reranker类型丰富多样,包括Cross-Encoder、Multi-Vector Reranker、基于LLM的Reranker等。Cross-Encoder模型采用数据对分类机制,能够更好地理解数据点之间的关系,从而对检索结果进行更精准的排序。例如,在处理一组与用户查询相关的文档时,Cross-Encoder能够深入分析每个文档与查询之间的语义关联,将最相关的文档排在前面[26]。ColBERT等Multi-Vector Embedding(多向量嵌入)模型则通过延迟查询和文档表示交互的方式,加快了检索速度,在保证检索质量的同时提高了系统的响应效率。研究表明,有效的Cross-Encoder配合强检索器在重排序任务上的表现超越了多数LLM,且效率更高。同时,基于LLM的LLM的零样本重排序器(zero-shot Reranker)在性能方面也表现不俗。

2025年,RAG技术持续保持着强劲的进化态势。大型语言模型在RAG流程中的参与度不断加深,不再仅仅局限于作为文本生成器这一单一角色,而是开始广泛参与到查询重写、文档摘要、检索结果评估等多个关键环节。在查询重写方面,大型语言模型能够分析原始查询的语义和意图,将模糊、不完整的查询转化为更精准、更符合知识库索引结构的表述。例如,当用户输入“那个新出的折叠屏手机咋样”,语言模型可将其重写为“2025年新发布的折叠屏手机性能、价格及用户评价如何”,显著提升检索模块的匹配效率。

在文档摘要生成中,大型语言模型凭借强大的自然语言理解能力,能够快速提炼长文档中的核心观点与关键信息。以学术论文处理为例,模型可自动生成包含研究背景、方法、结论的精简摘要,为后续检索和生成任务提供高质量的知识输入。在检索结果评估环节,语言模型通过语义相似度计算、逻辑连贯性判断等方式,对检索到的内容进行筛选和排序,优先选择与问题最相关、表述最准确的知识片段。​

RAG系统的“元学习”(Meta-Learning)能力在这一时期也得到显著增强。Self-RAG、Adaptive RAG等技术使系统具备了评估中间步骤并动态调整策略的能力。Self-RAG通过构建自我反馈机制,在每次任务完成后,系统会根据生成结果与实际需求的差异,分析检索策略、知识融合方式等环节存在的问题,并自动调整相关参数。例如,若生成的回答存在事实性错误,系统会追溯到检索阶段,重新评估知识来源的可靠性,优化检索算法的权重分配。Adaptive RAG则能够根据不同的任务类型、数据特征,自适应地选择最合适的检索和生成策略。在处理专业性较强的医学问题时,系统会加强对权威医学数据库的检索权重,并采用更严谨的知识验证机制;而在处理日常闲聊话题时,则适当放宽检索条件,提升回答的流畅性与趣味性。

强化学习在RAG系统中的应用进一步拓展,通过设计动态奖励函数,系统可以在与用户的交互过程中不断优化检索策略。当用户对生成的回答表示满意时,系统会给予正向奖励,强化当前有效的检索和生成方式;若用户反馈回答不准确或不相关,则给予负向奖励,促使系统调整参数,改进策略。这种基于强化学习的优化方式,有望在未来大幅减少人工调优的需求,使RAG系统能够自主适应多样化的应用场景。

在分块技术领域,从传统的固定大小分块向更智能、更灵活的方向发展。语义分块基于嵌入向量语义相似性分组句子,创建上下文感知分块。该方法通过计算句子向量之间的余弦相似度,将语义相近的句子划分为同一块,确保每个分块内的内容具有较强的语义关联性,有效避免信息碎片化;

结构化分块则充分利用文档的结构信息,如标题、目录、章节划分等,来确定分块边界。在处理学术论文时,系统可依据章节结构进行分块,使每个分块对应一个完整的研究主题,便于检索和利用。

智能体分块让LLM决定文档切分方式,赋予模型更高的自主性。LLM通过分析文档内容的逻辑结构、主题转换等因素,动态确定最优分块方案。混合分块器结合文档层次结构与token细化调整,先基于文档的宏观结构进行粗粒度分块,再针对每个分块内的内容,根据token数量进行细化调整,在保证语义完整性的同时,满足模型输入长度的限制。

此外,面向科学文献的多抽象层检索增强生成(Multiple Abstraction Level,MAL-RAG)通过在多级别抽象上创建分块,利用LLM生成高级别分块摘要,满足不同信息粒度需求。在糖科学等领域的实验中,MAL-RAG相比单层RAG显著提升了问答正确性。该技术首先将科学文献划分为不同层次的抽象块,如研究背景、实验方法、结果分析等,然后由LLM为每个高级别分块生成简洁的摘要。当用户提出问题时,系统可根据问题的复杂程度和信息需求,灵活选择不同层次的分块进行检索和生成。对于简单的概念性问题,直接利用摘要信息即可生成回答;对于复杂的研究型问题,则深入到具体的实验数据分块中提取详细信息[27]。

近年来,一些前沿研究致力于探索更高效的检索增强生成框架,如多模态检索增强生成(Multimodal Retrieval-Augmented Generation,mRAG)。mRAG在传统RAG的基础上,深度融合多模态信息处理技术,实现了对文本、图像、音频、视频等多种模态数据的联合检索与生成。在mRAG框架中,多模态数据首先通过各自的编码器转换为统一的特征向量表示,这些向量在共享的嵌入空间中进行融合。检索模块基于融合后的多模态向量进行检索,不仅能够检索到文本相关的信息,还能关联到图像、视频等对应内容。例如,当用户询问“某品牌新款汽车的外观和性能如何”,mRAG系统不仅能检索到相关的文字介绍,还能找到该汽车的外观图片、性能测试视频等资料。生成模块则利用这些多模态信息,生成包含文字描述、图片展示、视频链接的丰富回答。

为了更好地处理多模态信息,mRAG采用跨模态注意力机制,在生成过程中动态聚焦不同模态的关键信息。在生成汽车介绍时,系统会根据内容的需要,在描述外观时重点关注图像信息,在阐述性能数据时聚焦文本信息,从而生成逻辑清晰、内容详实的多模态回答。此外,mRAG还引入了多模态知识图谱,将不同模态的数据以结构化的形式进行存储和关联,进一步提升知识检索的准确性和生成内容的可靠性。​

尽管RAG技术在近年取得了众多突破性进展,但在实际应用中仍面临诸多挑战。数据的质量和多样性对RAG系统的性能有着至关重要的影响。低质量的数据,如存在错误、冗余、不完整的信息,会导致检索结果不准确,进而影响生成内容的可靠性。同时,数据模态的单一性也限制了RAG系统在复杂场景下的应用能力。如何获取和处理高质量、多模态的数据,是未来需要重点解决的问题。

模型的效率和可扩展性也是亟待解决的难题。随着数据规模的不断增大和应用场景的日益复杂,RAG系统在检索和生成过程中的计算资源消耗和时间成本急剧增加。在处理大规模文档集时,检索模块可能需要耗费大量时间和内存来搜索相关信息;生成模块在生成较长文本时,也会出现响应速度慢的问题。此外,RAG系统在不同硬件设备和网络环境下的适配性也需要进一步优化,以满足多样化的应用需求。

从发展趋势来看,RAG技术与新兴技术的融合将成为未来的重要方向。与因果推理技术结合,能够使RAG系统不仅回答“是什么”,还能解释“为什么”,提升回答的可解释性和说服力。在医疗诊断场景中,系统可以基于患者的症状、检查结果等信息,不仅给出诊断结论,还能分析疾病产生的原因和发展过程。与联邦学习结合,可在保护数据隐私的前提下,实现跨机构、跨地域的数据共享与模型协同训练,为RAG技术在金融、政务等数据敏感领域的应用提供安全保障。

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值