RAG的2025趋势重点及RAG+抽取场景的来源定位问题思考

Python_金钱豹

于 2025-06-24 21:15:05 发布

阅读量418

点赞数 17

CC 4.0 BY-SA版权

文章标签：人工智能深度学习网络知识图谱大数据

本文链接：https://blog.youkuaiyun.com/Python_cocola/article/details/148879759

为什么在实际落地过程中，比如信息抽取、RAG 等，会有引文生成、来源定位这些需求？底层的逻辑是什么？有哪些实际的例子？在技术上如何做？

另外，看看RAG发展温故而知新，看看RAG的一个发展趋势，看下RAG的2025趋势重点

一、RAG、抽取等落地场景的定位问题思考

1、为什么需要引文生成？

目前，包括大模型在内的深度学习方案，生成数据的原理是基于概率模型，可能产生“幻觉”，也就是即虚构事实或无依据的结论，通过引文标注来源，用户可验证答案是否基于真实数据。

例如，RAG在生成答案前检索外部知识库，并将检索到的文档片段作为生成依据，这样可以给人员以交互入口。

以实际的实际的落地场景为例，在医疗或金融领域，若回答未标注政策条款来源，可能误导决策；而引用具体文件章节（如“《XX政策》第3.2条”）则增强可信度。

而除了这一层，还有人的因素，这些模型的决策过程缺乏可解释性，引文提供“解释层”，让用户理解答案的生成逻辑，这个在B端，G端的需求更为强烈。

2、有哪些典型的定位例子

先说RAG，定位可以定位到chunk，定位到某个具体的文档页面，这个在RAG的产品或者开源项目中十分场景。

一个是magi，知识图谱抽取的引文生成。这个比较早，在知识图谱中，给出抽取实体或者实体关系所来自于的段落，并通过线条的方式进行连接。

一个是典型的RAGflow中的RAGchunk定位，通过记录问题答案所在的chunk，chunk所在的文本索引，从而完成定位。

当然，也可以过渡到多模态任务上，例如答案定位VQA（Visual Question Answering），结合图像理解和NLP不仅要求系统回答问题，还需要定位图像中支持答案的证据区域。

3、从技术上看实现策略

以RAG中的引文生成为例，可以拆解为两个层面：一是如何让系统知道答案来自哪个文档（引文生成），二是如何精确定位到文档中的具体信息（来源定位）。

第一个问题是来源于大模型的能力，可以通过微调或者强化方式解决，在prompt中将相关的文档进行标记，加入一些数字标引，这个标引直接与chunk相关联。然后提示llm生成引文。

第二个问题，一般是通过物理方式进行，由于拿到了上一步关联的chunk，则可以同离线阶段相呼应。

例如，离线场景下，文档片段标识符存储，在构建向量数据库时，每个文本片段（chunk）需关联唯一标识符（如文档ID、起始位置、结束位置、URL等）。例如，使用Chroma或FAISS存储向量时，元数据字段可包含doc_id、chunk_index、file_path等信息。

而进一步，如果要在原文档中进行渲染，那么则需要进一步适用前端进行。

而对于信息抽取中的定位，就很自然的，因为抽取本来就是来源于某个段落，这个段落在原文中就有offset，因此这个只需要预先记录即可。

二、RAG-2025发展温故而知新

依旧是做RAG的总结，推荐一个blog:https://ragflow.io/blog/the-rise-and-evolution-of-rag-in-2024-a-year-in-review, 2024年RAG的崛起与演变年度回顾，其中有几个重要的点，摘取出来，做个记录。

1、从2023到2026年的RAG与LLM发展的预判

从 2024 年的文档解析，GraphRAG，会到 2025 年的多模态RAG以及结构化、非结构化的统一抽取（目前也确实是在往这个方向发展）

2、RAG的三个挑战定性不变

还是螺纹提，三个：非结构化多模态文档的问答效率低下：现有的LLMOps解决方案仅限于纯文本场景。PDF、PowerPoint演示文稿（PPT）或文本与图像融合的文档无法充分发挥其潜力；纯向量数据库导致召回率和命中率低，RAG 的核心在于搜索能力；只有能够根据用户的查询“搜索”出答案才能发挥作用。

3、RAG中的文档多模态Embedding

所以现在大家都在卷embedding，单模态或者多模态，单模态入 qwen3-embedding，多模态也是用的比较多，例如colqwen,colpali。

这种好处在于，绕过OCR和chunk，直接做问答，这也是在做加法。

4、RAG中的文档解析的演变

确保数据质量（输入质量）对于获得高质量结果（输出质量）至关重要，所谓garbage in, garbage out。

这个故事讲了很久，典型的路线就是pipeline，关于这块，社区也讲了许多了。

预测2025年，基于编码器-解码器架构的研究有望取得进一步进展。这个应验了，今年统一的多模态文档解析模型，该模型将各种非结构化文档转换为文本内容。

近期的monkeyocr, dolphin, mineru2.0等方案也正在朝这方面发展。这一些，都直接促成了当前多模态RAG的发展。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述