Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Reference

源码链接:https://github.com/zengxingchen/ChartQA-MLLM

启发:这篇论文经过数据过滤和数据生成构建了一个高质量图表数据集,可以用于后续研究。不过在图表问答任务的模型上并没有很大创新,主要提出了解冻LLaVA的视觉编码器,对其进一步训练。从最终实验结果可以看出,高质量数据集对真实图表还是有帮助的,而解冻视觉编码器其实有些类似Unichart,都是针对图表重新训练视觉编码器。

Abstract

研究问题:现有CQA数据集多是合成数据集并且注重数据量,但是图表质量不高。

研究方法: 提出了一种新的数据引擎,以有效地从现有数据集中过滤多样化和高质量的数据,然后使用基于 LLM 的生成技术来提炼和增强数据,以更好地与实际的 QA 任务和视觉编码保持一致。然后,为了促进对图表特征的适应,我们利用丰富的数据来训练 MLLM,方法是解冻视觉编码器并结合分辨率混合适应策略来增强精细识别。实验结果验证了我们方法的有效性。即使训练示例较少,我们的模型在已建立的基准上也始终优于最先进的 CQA 模型。

4 EMPIRICAL STUDY: REVISITING MLLMS FOR CQA

        进行了一项实证研究,以重新审视现有的多模态大型语言模型(MLLMs)在图表问题回答(Chart Question Answering, CQA)任务中的有效性。研究的目的是识别现有MLLMs的局限性,并为进一步提升性能提供见解。研究主要关注以下几个研究问题(RQs):

  1. RQ1: 如何增强ChartQA数据集以更好地反映现实世界场景?研究者们通过与真实数据集(如Beagle图像数据集和视觉素养评估数据集)的分布进行比较,发现ChartQA数据集中的图表和问题-答案(QA)对的分布存在偏差。这表明需要一个包含更广泛图表类型和QA对的数据集,以提高MLLMs在现实世界场景中的有效性。

  2. RQ2: 什么构成了CQA中有效的视觉指令?研究者们通过手动

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值