【Task3】【Datawhale AI夏令营】多模态RAG

科大讯飞AI大赛(多模态RAG方向)

夏令营:让AI读懂财报PDF(多模态RAG)

目前正在尝试在autodl平台上使用4090显卡,将原来baseline使用的fitz改进为MinerU,目前遇到了的错误:

ModuleNotFoundError: No module named ‘image_utils’

缺少image_utils

一开始以为是要安装image_utils包,结果安装后发现仍然缺少调用函数。

卸载image_utils包

从开源仓库下载好正确的image_utils后,目前仍然在继续尝试中。

下面是教程:

copy from 侵删

💡
欢迎回到Datawhale AI夏令营第三期,多模态RAG 方向的学习~

我们将聚焦在「多模态RAG图文问答挑战赛」的赛事项目实践。

作为此次项目实践的最后一个Task,我们将—— 了解更多上分思路!

恭喜你已经完成了Baseline的跑通和赛题理解!这已经超越了80%的参赛者。

在跑通 Baseline 之后,相信我们已经对多模态RAG有了一个基本的认识和实践。

Baseline 方案提供了一个完整的流程,解决了从零到一的问题。接下来,我们要讨论的是如何在这个基础上做得更好。

在这个部分,我们将一起分析 Baseline 的局限性,从几个方面来考虑设计和优化RAG系统,学习三个核心的进阶方向:

使用 MinerU 实现高保真文档解析 :从源头上提升我们知识库的质量。

微调 Embedding 模型 :让我们的检索模块更懂金融领域的专业表达。

微调大语言模型 :训练一个更听话、更专业的问答生成器。

这部分内容会更有挑战性,但掌握了它们,你将能真正深入这个赛题的核心,并具备独立设计和优化高级RAG系统的能力。我们开始吧!

一、我们先回顾一下赛题任务

赛题背景

我们面对的不是干净的纯文本,而是信息量巨大、格式复杂的真实财报PDF。这些文件里文字、图表、表格交织在一起,传统的文本处理技术难以有效利用全部信息,因此需要引入多模态处理能力。

赛题目标

构建一个基于给定PDF知识库的、可溯源的多模态问答系统。简单来说,系统需要“读懂”这些图文混排的PDF,并能准确回答相关问题,同时必须明确指出答案来自哪个文件的哪一页。

评估标准

最终分数由三部分构成,总分为1分。这个评分机制强调了 答案准确性 和 来源可追溯性 并重:

答案内容相似度 (0.5分)

文件名匹配准确率 (0.25分)

页码匹配准确率 (0.25分)

数据集

我们手上有三份材料:

知识库 (财报数据库.zip) : 唯一的、封闭的信息来源,包含多个图文混排的PDF文件。

训练集 (train.json) : 提供“问题-答案-来源”的标注样本,用于系统开发和验证。

测试集 (test.json) : 只包含问题,是我们需要处理并提交结果的目标。

挑战与难点

多模态信息融合 :如何让系统理解文本与图表之间的关联。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值