技术总结之RAG用于文档信息抽取及多模态大模型两阶段训练范式

最新推荐文章于 2025-07-10 22:53:45 发布

原创最新推荐文章于 2025-07-10 22:53:45 发布 · 593 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #langchain #数据库 #知识图谱 #大数据

我们来看几个问题，一个是AG竞赛总结及用于信息抽取的实现范式，看看目前怎么解。

另外，再看看大模型训练相关轮子指引，包括多模态大模型训练的两阶段范式以及其他头部模型的训练指引，东西越来越多，温故而知新。

最近的趋势：轮子与解决方案同质化之下，业务know-how更加为上。

一、RAG竞赛总结及用于信息抽取的实现范式

1、SIGIR 2025 LiveRAG的评测总结报告

我们在之前的文章《SIGIR 2025 LiveRAG竞赛获奖方案及中文文档版式分析的标签设计》，https://mp.weixin.qq.com/s/qH4nGqPGPc-tEAmDrUARPQ，https://github.com/HCIILAB/M6Doc?tab=readme-ov-file中，介绍了SIGIR 2025 LiveRAG的几个代表性的获奖方案。

现在再温习一下，看下官方对此次竞赛的评测报告，也就是《SIGIR 2025 – LIVERAG CHALLENGE REPORT》，https://arxiv.org/pdf/2507.04942

其中核心的要点，可以总结下，就是大家都在用的广泛方案都哪些？

1）查询重写：大多数团队使用LLMs来分解、重述或扩展原始问题。例如，Magikarp从排名靠前的检索结果中提取知识元素，并将其用于问题的扩展和重排；

2）检索：大多数团队使用预构建的稀疏和密集索引，并使用各种基于交叉嵌入的重排器进行重排。例如，Ped100x将文档分类到预定义的主题分类中，然后根据问题主题进行剪枝；

3）提示生成：大多数团队将3-10个检索到的段落添加到问题中，并使用最先进的LLMs进行评估。例如，Ragtifier按检索分数的逆序将段落添加到提示中；

2、RAG用于文档信息抽取的思路

RAG除了用于问答之外，还可以用于信息抽取等，其技术流程可以完全套用RAG，然后在此基础上调整抽取prompt，一个典型的技术流程如下：

通过这一流程，RAG 将非结构化文档→可检索的知识块→可信的结构化信息，但是，实际落地需结合场景定制分块策略、检索算法与生成约束。

当然，当我们去做调研时候，会发现，这种已经成为了一些惯用方案了，例如textin的思路：

又如ppocr的思路：

但是，这种做法，其实将RAG和信息抽取的毛病都带进去了，尤其是如何召回的准确，以及面对长文档的时候，针对某个字段会出现很多对应的值，那么如何进行对齐、融合，其实并不容易，这个才是最要命的。

此外，还可以进一步的往后延伸，就是这个还会用来做合同审核，之前的文档解析这些可以保持不变，只是使用大模型时候的prompt的设计发生一些改变，将抽取任务变成分类任务，或者取两者。

我们会想着说，大模型来了之后，可以将其做成一个工具平台，让业务去用，但这个背后的逻辑其实都是业务驱动的，不具备对行业业务的know-how，想拿到一个可用的结果也并不容易。

所以，现在文档解析、RAG以及大模型（包括多模态大模型）的逐渐普及，大家的方案出奇的一致，同质化很严重，也加剧内卷。大模型应用越搞越发现，想靠大模型挖传统软件厂商的墙是不可能的，就如社区的讨论所说，自身没有行业know-how做不成产品，RAG或者Agent都只是“做事的手段”。尤其是像合同审查这种AI场景中的“做什么、怎么做、为什么做”这些核心问题，才是真正要解决的业务痛点。

例如，在做的时候，往往需要预置通用合同、采购合同、房屋租赁合同、技术开发合同等多类型合同审查规则模板；针对不同类型合同，预置不同的审查规则与细分风险点，同时可灵活自定义规则，包括条款名称、关注度、条款说明及每个条款内含的风险点。

二、续看大模型训练相关轮子指引

大模型相关的轮子越来越多，也陆续出了更多可用的东西，可以再跟进下：

1、unsloth大模型训练指引

unsloth，将所有微调头部开源模型的文章做了个合集，从如何微调，如何优化，每个模型的最佳运行参数，可能遇到的问题，适合动手，

地址在：https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms

2、多模态大模型训练的两阶段常规范式

多模态大模型的训练，目前会越来越普遍，也大体遵循两阶段的训练形式，例如：

第一阶段：仅训练视觉到语言的对齐模块（aligner），冻结ViT和LLM部分；

第二阶段：解冻所有模块，联合训练提升整体性能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述