源码链接:https://github.com/zengxingchen/ChartQA-MLLM
启发:这篇论文经过数据过滤和数据生成构建了一个高质量图表数据集,可以用于后续研究。不过在图表问答任务的模型上并没有很大创新,主要提出了解冻LLaVA的视觉编码器,对其进一步训练。从最终实验结果可以看出,高质量数据集对真实图表还是有帮助的,而解冻视觉编码器其实有些类似Unichart,都是针对图表重新训练视觉编码器。
Abstract
研究问题:现有CQA数据集多是合成数据集并且注重数据量,但是图表质量不高。
研究方法: 提出了一种新的数据引擎,以有效地从现有数据集中过滤多样化和高质量的数据,然后使用基于 LLM 的生成技术来提炼和增强数据,以更好地与实际的 QA 任务和视觉编码保持一致。然后,为了促进对图表特征的适应,我们利用丰富的数据来训练 MLLM,方法是解冻视觉编码器并结合分辨率混合适应策略来增强精细识别。实验结果验证了我们方法的有效性。即使训练示例较少,我们的模型在已建立的基准上也始终优于最先进的 CQA 模型。
4 EMPIRICAL STUDY: REVISITING MLLMS FOR CQA
进行了一项实证研究,以重新审视现有的多模态大型语言模型(MLLMs)在图表问题回答(Chart Question Answering, CQA)任务中的有效性。研究的目的是识别现有MLLMs的局限性,并为进一步提升性能提供见解。研究主要关注以下几个研究问题(RQs):
-
RQ1: 如何增强ChartQA数据集以更好地反映现实世界场景?研究者们通过与真实数据集(如Beagle图像数据集和视觉素养评估数据集)的分布进行比较,发现ChartQA数据集中的图表和问题-答案(QA)对的分布存在偏差。这表明需要一个包含更广泛图表类型和QA对的数据集,以提高MLLMs在现实世界场景中的有效性。
-
RQ2: 什么构成了CQA中有效的视觉指令?研究者们通过手动