【Task2】【Datawhale AI夏令营】多模态RAG

原创

已于 2025-08-10 17:54:52 修改 · 951 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大数据 #机器学习

于 2025-08-09 16:13:36 首次发布

科大讯飞AI大赛（多模态RAG方向）

夏令营：让AI读懂财报PDF（多模态RAG）

第一次提交截图，顺利运行：
第一次尝试

下面是教程：

copy from 侵删

💡
欢迎回到Datawhale AI夏令营第三期，多模态RAG 方向的学习~

我们将聚焦在「多模态RAG图文问答挑战赛」的赛事项目实践。

作为此次项目实践的第二个Task，我们将—— 理解项目目标、从业务理解到技术实现！！

我们只有理解业务逻辑，才能做出真正有价值、解决问题的方案！

本次赛题的核心目标是打造一个能看懂图片、读懂文字、并将两者关联起来思考的AI助手，构建一个先进的智能问答系统，以应对真实世界中复杂的、图文混排的信息环境。

让 AI模型能够阅读并理解包含大量图标、图像和文字的pdf文档，基于信息回答用户问题。

能找到答案的同时还需要标注出答案的出处，比如源自于哪一个文件的哪一页。

参加本次比赛，你将接触并实践AI领域前沿热门的技术之一：多模态检索增强生成 (Multimodal RAG)！其中需要涉及到——

多模态信息处理 (Multimodal Information Processing)、向量化与检索技术 (Embeddings & Retrieval)

跨模态检索与关联 (Cross-Modal Retrieval)、大语言模型（LLM）的应用与推理 (LLM Application & Reasoning)

💡
相关知识点及参考资料（点击右侧◀展开查看）

一、此次项目是一个复杂的生成类任务
在开始设计方案之前，我们需要全面理解赛题的背景和要求，

对问题进行清晰的定义，并分析数据的特征，理解解题的要点和难点。

这将有助于我们选择合适的模型和方法来解决问题。

任务背景：目前多模态信息（财报PDF）的AI利用率较低

我们正处在一个信息爆炸的时代，但这些信息并非以整洁的纯文本形式存在。它们被封装在各种各样的载体中：公司的年度财报、市场研究报告、产品手册、学术论文以及无数的网页。这些载体的共同特点是图文混排 ——文字、图表、照片、流程图等元素交织在一起，共同承载着完整的信息。

传统的AI技术，如搜索引擎或基于文本的问答系统，在处理这类复杂文档时显得力不从心。它们能很好地理解文字，但对于图表中蕴含的趋势、数据和关系却是“视而不见”的。这就造成了一个巨大的信息鸿沟：AI无法回答那些需要结合视觉内容才能解决的问题，例如“根据这张条形图，哪个产品的市场份额最高？”或“请解释一下这张流程图的工作原理”。

近年来，大语言模型（LLM）的崛起为自然语言理解带来了革命。然而，它们也面临两大挑战：

知识局限性：LLM的知识是预训练好的，对于私有的、最新的或特定领域的文档（比如本次比赛的财报）一无所知，并且可能产生幻觉。

模态单一性：大多数LLM本身只能处理文本，无法直接“看到”和理解图像。

检索增强生成（RAG）技术的出现，通过从外部知识库中检索信息来喂给LLM，有效地解决了第一个挑战。而本次比赛的核心—— 多模态检索增强生成（Multimodal RAG），则是应对这两大挑战的前沿方案。它赋予了AI系统一双“眼睛”，让他不仅能阅读文字，还能看懂图片，并将两者结合起来进行思考和回答。

此次多模态RAG任务有四大核心要素
开始之前，我们先理解一下核心任务是什么。

💡
此次赛题的核心不仅仅是简单的问答，而是基于给定的pdf知识库的、可溯源的多模态问答。

它定义了我们系统的四个基本支柱，也是我们构建解决方案时必须时刻牢记的四个约束：

💡
数据源：一堆图文混排的PDF，这是我们唯一的数据。

💡
可溯源：必须明确指出答案的出处。

💡
多模态：问题可能需要理解文本，也可能需要理解图表（图像）。

💡
问答：根据检索的信息生成一个回答。

二、那么任务要求究竟是怎么样的、以及有哪些重难点呢？

2.1 我们需要通过财报PDF，输出对应的多模态答案
此次的任务输入-输出究竟是什么？最后需要提交什么样格式的结果？

输入 (Input)：我们需要处理什么？
比赛官方为我们提供了三样核心材料，它们是我们构建系统所需用到的全部信息：

财报数据库.zip

一个包含了多个PDF文件的压缩包。这些PDF是真实世界的公司财报，内容上是典型的图文混排格式，包含了大量段落、数据表格以及各种图表（如条形图、饼图、折线图等）。这是我们系统的唯一信息来源。所有问题的答案都必须从这些PDF文档中寻找，并且不能依赖任何外部知识。

train.json

一个JSON格式的文件，为我们提供了一系列“问题-答案”的范例。这是我们用来开发、训练和验证我们系统模型的主要依据。我们可以通过它来调试我们的算法，看看对于给定的问题，我们的系统能否找到正确的答案和出处。

数据格式示例

：文件内容是一个JSON列表，其中每个元素代表一个问答对，结构如下：

[
{
“question”: “根据图表显示，产品A的销售额在哪个季度开始下降？”,
“answer”: “产品A的销售额在第三季度开始出现下降。”,
“filename”: “2023年度第三季度财报.pdf”,
“page”: 5
},
{
“question”: “…”,
“answer”: “…”,
“filename”: “…”,
“page”: “…”
}
]

test.json

另一个JSON格式的文件，包含了比赛最终用来评测我们系统性能的所有问题。

这是我们需要完成的任务。文件里只包含 question 字段，而我们需要预测的 answer , filename , 和 page 都是缺失的。

[
{
“filename”: “xx.pdf”,
“page”: 1,
“question”: “广联达在苏中建设集团南宁龙湖春江天越项目中，具体运用了哪些BIM技术，并取得了哪些成果？”,
“answer”: “广联达在苏中建设集团南宁龙湖春江天越项目中，具体运用了哪些BIM技术，并取得了哪些成果？”
},
{
“filename”: “xx.pdf”,
“page”: 1,
“question”: “广联达公司如何通过数字项目管理平台提升施工企业的数字化转型能力？”,
“answer”: “广联达公司如何通过数字项目管理平台提升施工企业的数字化转型能力？”
},
……
]

输出 (Output)：我们需要提交什么？
我们的最终任务是为 test.json 中的每一个问