Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Reference

零澪灵

于 2024-10-17 19:21:11 发布

阅读量950

点赞数 20

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/moment8aVry/article/details/142977286

版权

源码链接：https://github.com/zengxingchen/ChartQA-MLLM

启发：这篇论文经过数据过滤和数据生成构建了一个高质量图表数据集，可以用于后续研究。不过在图表问答任务的模型上并没有很大创新，主要提出了解冻LLaVA的视觉编码器，对其进一步训练。从最终实验结果可以看出，高质量数据集对真实图表还是有帮助的，而解冻视觉编码器其实有些类似Unichart，都是针对图表重新训练视觉编码器。

Abstract

研究问题：现有CQA数据集多是合成数据集并且注重数据量，但是图表质量不高。

研究方法：提出了一种新的数据引擎，以有效地从现有数据集中过滤多样化和高质量的数据，然后使用基于 LLM 的生成技术来提炼和增强数据，以更好地与实际的 QA 任务和视觉编码保持一致。然后，为了促进对图表特征的适应，我们利用丰富的数据来训练 MLLM，方法是解冻视觉编码器并结合分辨率混合适应策略来增强精细识别。实验结果验证了我们方法的有效性。即使训练示例较少，我们的模型在已建立的基准上也始终优于最先进的 CQA 模型。

4 EMPIRICAL STUDY: REVISITING MLLMS FOR CQA

进行了一项实证研究，以重新审视现有的多模态大型语言模型（MLLMs）在图表问题回答（Chart Question Answering, CQA）任务中的有效性。研究的目的是识别现有MLLMs的局限性，并为进一步提升性能提供见解。研究主要关注以下几个研究问题（RQs）：

RQ1: 如何增强ChartQA数据集以更好地反映现实世界场景？研究者们通过与真实数据集（如Beagle图像数据集和视觉素养评估数据集）的分布进行比较，发现ChartQA数据集中的图表和问题-答案（QA）对的分布存在偏差。这表明需要一个包含更广泛图表类型和QA对的数据集，以提高MLLMs在现实世界场景中的有效性。
RQ2: 什么构成了CQA中有效的视觉指令？研究者们通过手动

最低0.47元/天解锁文章

博客等级

码龄5年

38
原创

444
点赞

553
收藏

344
粉丝

关注

私信

热门文章

分类专栏

学习笔记

展开全部收起

最新评论

基于transformer的机器翻译实战
Smilecz0: [code=python] def create_padding_mask(pad, seq): seq = torch.eq(seq, torch.tensor(pad)).float() return seq[:, np.newaxis, np.newaxis, :] [/code] 这个encoder的mask部分是对pad部分使用eq做mask（也就是如果pad，则mask=1）但是attention中是对mask=0的位置最小化，这不是矛盾吗？ [code=python] # 掩码机制：如果mask不为空，就将mask中取值为0的位置的注意力设定为 -1e10 if mask is not None: attention = attention.masked_fill(mask == 0, -1e10) attention = self.dropout(torch.softmax(attention, dim=-1)) [/code]
基于transformer的机器翻译实战
Smilecz0: 数据中实际是<pad>为掩码字符，你代码中使用的pad计算mask，这个是有问题吗？
【论文阅读】Co2l: Contrastive continual learning
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【bug解决】 ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.8‘ not found
优快云-Ada助手: 推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
[论文阅读] GPT-4 Technical Report
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。