Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Reference

本文是LLM系列文章,针对《Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning》的翻译。

使用可视化引用指令调优在图表问答中推进多模态大型语言模型

摘要

新兴的多模态大型语言模型 (MLLM) 在图表问答 (CQA) 方面表现出巨大的潜力。最近的工作主要集中在通过数据收集和合成来扩大训练数据集(即图表、数据表和问答 (QA) 对)。然而,我们对现有 MLLM 和 CQA 数据集的实证研究揭示了显着的差距。首先,当前的数据收集和合成侧重于数据量,缺乏对细粒度视觉编码和 QA 任务的考虑,导致数据分布不平衡,与实际 CQA 场景不同。其次,现有工作遵循最初为自然图像设计的基本 MLLM 的训练配方,探索对独特图表特征(如富文本元素)的适应。为了填补这一空白,我们提出了一种可视化参考指令调整方法来指导训练数据集的增强和模型开发。具体来说,我们提出了一种新的数据引擎,以有效地从现有数据集中过滤多样化和高质量的数据,然后使用基于 LLM 的生成技术来提炼和增强数据,以更好地与实际的 QA 任务和视觉编码保持一致。然后,为了促进对图表特征的适应,我们利用丰富的数据来训练 MLLM,方法是解冻视觉编码器并结合分辨率混合适应策略来增强精细识别。实验结果验证了我们方法的有效性。即使训练示例较少,我们的模型在已建立的基准上也始终优于最先进的 CQA 模型。我们还贡献了一个数据集拆分作为未来研究的基准。本文的源代码和数据集可在 https://github.com/zengxingchen/ChartQA-MLLM 获得。

1 引言

2 MLLMS背景

3 相关工作

<
给定引用资料里未提及MDSF - YOLO(基于多尺度膨胀序列融合网络推进目标检测的方法)的相关信息,所以无法依据引用内容提供其在目标检测中的应用及相关信息。不过,一般而言,多尺度膨胀序列融合网络在目标检测中的应用可能体现在以下方面: 在目标检测任务里,不同大小的目标往往需要不同尺度的特征来准确检测。多尺度膨胀序列融合网络能够利用多尺度特征,通过膨胀卷积增大感受野且不损失分辨率,从而有效捕捉不同大小目标的特征。膨胀卷积可以在不增加参数数量的情况下,扩大卷积核的感受野,这对于检测大目标非常有用;同时,多尺度特征融合有助于检测小目标,因为小目标可能只在浅层特征图中体现明显特征。 以下是一个简单的伪代码示例,用于说明多尺度膨胀序列融合网络的基本概念: ```python import torch import torch.nn as nn class MDSFBlock(nn.Module): def __init__(self, in_channels, out_channels): super(MDSFBlock, self).__init__() # 不同膨胀率的卷积层 self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, dilation=1, padding=1) self.conv2 = nn.Conv2d(in_channels, out_channels, kernel_size=3, dilation=2, padding=2) self.conv3 = nn.Conv2d(in_channels, out_channels, kernel_size=3, dilation=3, padding=3) def forward(self, x): # 分别进行不同膨胀率的卷积 out1 = self.conv1(x) out2 = self.conv2(x) out3 = self.conv3(x) # 特征融合 out = torch.cat([out1, out2, out3], dim=1) return out # 示例使用 input_tensor = torch.randn(1, 3, 224, 224) mdsf_block = MDSFBlock(3, 16) output = mdsf_block(input_tensor) print(output.shape) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值