2025datawhale夏令营:多模态agent开发

2025夏令营多模态agent开发比赛

本次夏令营内容是参加多模态agent开发比赛,具体是开发一个读财报的多模态agent。赛事方提供真实的公司财报数据,以PDF形式呈现。作为选手,我们需要在baseline的基础上,不断进行优化取得更好的效果。

Task1

夏令营的Task1的内容是:报名参赛跟着教程将baseline跑通。教程写的很详细基本上没有什么问题,只有一个需要把env.txt这个文件名改为.env的小问题,解决了之后一路畅通。baseline的运行结果的得分大概是0.004分左右。

Task2

根据Task2的内容主要是对赛题的一个整体梳理以及对后续得分的思路上的提示。虽然比赛是开发多模态agent,但是毕竟是比赛不是实际的应用,根据评分的规则还是可以针对性的做出提升。
赛事方给出了test.json来说明如何进行评分的:给出question字段,剩下部分需要我们开发出来的agent进行预测,着重要求不仅答案要是对的而且还要给出答案所在的页码。
一般来说agent无法处理图片这种信息,而Task2的教程中给了三种处理思路。
1、基于图片描述 :对所有图片生成文本描述,将这些描述与原文的文本块统一处理。这能将多模态问题简化为纯文本问题,最适合快速构建Baseline。
2、多模态分别嵌入 :对文本和图片分别进行向量化,检索时结合文本和图片的相似度。这更精确,但实现也更复杂,而且召回图片与召回文本存在不相关情况,也需要比较多的处理。
3、多模态大模型端到端处理 :将检索到的文本和原始图片一起交给多模态大模型(如Qwen-VL)进行端到端理解和生成。这是最前沿的方案,但也最消耗资源,因为一般的多模态模型推理能力要稍微差一些。
Task2 更多的还是对赛题的整体梳理,而真正的对分数有提升的部分还是要看Task3,一个最直观的提升部分就是,在baseline中只运行了前十条测试数据,可以修改让其运行所有的数据,这样的结果分数也会有不小的提升。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值