多模态大语言模型arxiv论文略读(142)

在这里插入图片描述

TP-Eval: Tap Multimodal LLMs’ Potential in Evaluation by Customizing Prompts

➡️ 论文标题:TP-Eval: Tap Multimodal LLMs’ Potential in Evaluation by Customizing Prompts
➡️ 论文作者:Yuxuan Xie, Tianhua Li, Wenqi Shao, Kaipeng Zhang
➡️ 研究机构: OpenGV Lab, Shanghai Artificial Intelligence Laboratory、School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)因其在理解多模态输入(如图像和文本)方面的卓越能力而受到广泛关注。然而,现有的多模态模型评估基准存在一个关键问题,即对提示(prompt)的敏感性。即使是微小的提示变化也可能导致模型性能的显著波动,这可能导致模型能力的低估或评估偏差。
➡️ 研究动机:当前的评估基准通常使用简单且统一的提示,这不仅可能低估模型的真实能力,还可能导致评估偏差。为了解决这些问题,研究团队提出了一种新的评估框架TP-Eval,该框架通过为不同的模型定制最优提示来减少评估偏差,从而更准确地挖掘模型的潜力。
➡️ 方法简介:TP-Eval框架通过自动提示优化技术为每个模型定制最优提示。具体来说,该框架首先使用初始提示和少量样本来生成多个候选提示,然后通过评分器评估这些提示的有效性。评分器不仅考虑了模型的准确率,还引入了语义相似度和错误内省(introspection)来限制提示的语义变化,确保优化过程的平滑进行。最终,通过迭代优化过程,选择出最优提示。
➡️ 实验设计:研究团队在两个公开的多模态评估基准(MMT-Bench和MMMU)上进行了实验。实验设计了两种优化设置:优化整个提示或优化新添加的短语。通过对比优化前后的模型性能,验证了TP-Eval框架的有效性。实验结果表明,TP-Eval能够显著提高模型在多种任务上的性能,揭示了现有评估基准中提示设计的不足,并为未来的多模态模型评估提供了新的思路。

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

➡️ 论文标题:DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
➡️ 论文作者:Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
➡️ 研究机构: 中国科学院自动化研究所(MAIS & NLPR)、中国科学院大学人工智能学院、字节跳动公司、中国科学技术大学
➡️ 问题背景:现实世界中的图像恢复(Image Restoration, IR)面临诸多挑战,主要由于缺乏高容量模型和全面的数据集。现有的数据集通常包含几千张图像,无法充分涵盖现实世界的复杂退化类型。此外,现有的数据集构建方法往往涉及版权和隐私问题,尤其是在处理可识别的人脸图像时。
➡️ 研究动机:为了克服上述挑战,研究团队提出了一个双策略:GenIR,一种创新的数据集构建管道,以及DreamClear,一种基于扩散变换器(Diffusion Transformer, DiT)的高容量图像恢复模型。GenIR旨在解决现有数据集的局限性,提供一个大规模、高质量、隐私安全的数据集。DreamClear则利用生成先验和多模态大语言模型(MLLMs)的能力,实现对现实世界复杂退化的鲁棒恢复。
➡️ 方法简介:GenIR通过三个阶段构建数据集:图像-文本对构建、双提示微调、数据生成与过滤。首先,利用现有的IR数据集和先进的MLLM生成图像-文本对,并通过图像到图像的管道生成负样本。然后,采用双提示学习策略微调预训练的T2I模型,生成适合数据合成的提示。最后,MLLM生成多样化的场景描述,并合成图像,同时确保不包含可识别的个人。DreamClear则采用双分支架构,结合LQ图像和参考图像,通过ControlFormer和MoAM(Mixture of Adaptive Modulator)模块,动态融合退化先验信息,提高模型对不同退化类型的适应能力。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括DIV2K、Flickr2K、LSDIR、DIV8K以及自动生成的数据集。实验评估了模型在不同退化类型下的性能,包括合成数据集和真实世界数据集。实验结果表明,DreamClear在处理复杂现实世界退化方面表现出色,优于现有的SOTA方法。

Distill Visual Chart Reasoning Ability from LLMs to MLLMs

➡️ 论文标题:Distill Visual Chart Reasoning Ability from LLMs to MLLMs
➡️ 论文作者:Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang
➡️ 研究机构: Fudan University, Weixin Group, Tencent
➡️ 问题背景:多模态大型语言模型(MLLMs)在视觉识别任务中取得了显著成就,但在处理复杂的图表理解任务时仍面临挑战。现有基准测试显示,MLLMs在基本识别和深入推理方面的能力仍需提升。图表理解任务的复杂性要求模型不仅能够识别关键信息,还需要进行多步骤推理。然而,创建高质量的图表相关训练数据既昂贵又耗时,且确保标注答案的质量也是一个挑战。
➡️ 研究动机:为了提高MLLMs在图表理解任务中的表现,研究团队提出了一种新的数据合成方法——Code-as-Intermediary Translation (CIT),通过代码作为中介,将图表图像转换为文本表示,从而利用大型语言模型(LLMs)的能力生成高质量的图表相关问题和答案。这种方法不仅成本低、效率高,而且易于扩展,能够生成包含复杂视觉特征的图表和问题。
➡️ 方法简介:研究团队首先从Matplotlib画廊收集了33个种子代码,然后通过Self-Instruct和Evol-Instruct方法生成更多多样性和复杂性的图表绘制代码。这些代码被用于生成图表和问题-答案对,形成REACHQA数据集。REACHQA包含3,249个推理密集型图表和19,963个问题-答案对,涵盖了视觉识别和推理两个方面。
➡️ 实验设计:研究团队在七个基准测试上进行了实验,包括传统的图表相关基准(如ChartQA、ChartBench和ChartX)和新型的图表相关基准。实验设计了不同的任务类型,如视觉识别任务和推理任务,以全面评估模型在不同任务上的表现。实验结果表明,使用REACHQA数据集进行微调后,模型在多个基准测试上的性能显著提升,特别是在数学推理任务上也表现出色。此外,研究还探讨了专家推理对模型推理能力的影响、识别和推理导向训练数据的比例效应,以及混合通用多模态指令数据的好处。

SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models

➡️ 论文标题:SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models
➡️ 论文作者:Zonghao Ying, Aishan Liu, Siyuan Liang, Lei Huang, Jinyang Guo, Wenbo Zhou, Xianglong Liu, Dacheng Tao
➡️ 研究机构: Beihang University, National University of Singapore, Zhongguancun Laboratory, Hefei Comprehensive National Science Center, University of Science and Technology of China, Nanyang Technological University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中表现出色,如图像描述、视觉问答和图像检索。然而,这些模型的行为容易偏离设计者的初衷,产生不真实或对用户有害的输出,这使得确保MLLMs的安全性成为其部署前的关键步骤。
➡️ 研究动机:现有的MLLMs安全评估基准存在数据质量和评估可靠性方面的限制,这限制了对模型安全影响的检测和评估。为了解决这些问题,研究团队提出了SafeBench,一个旨在进行MLLMs安全评估的全面框架,包括一个综合的有害查询数据集和一个自动化的评估协议。
➡️ 方法简介:SafeBench框架包含两个关键部分:一个综合的数据集基准和一个自动化的评估协议。为了提高查询的多样性,研究团队首先使用一组大型语言模型(LLMs)来分类风险场景的分类法。基于此分类法,这些LLMs生成高质量的有害查询,以最可能诱导模型产生有害行为。为了提高评估的可靠性,研究团队借鉴了司法程序中的陪审团审议制度,提出了一个采用协作LLMs的陪审团审议评估协议,以评估目标模型在特定主题/场景下的有害行为。
➡️ 实验设计:基于SafeBench数据集,研究团队在15个广泛使用的开源MLLMs和6个商业MLLMs(如GPT-4o、Gemini)上进行了大规模实验。实验揭示了现有MLLMs中普遍存在的安全问题,并提供了关于MLLMs安全性能的若干见解,如图像质量和参数大小。此外,该数据集还可以作为其他越狱攻击的基础,以进一步提高安全攻击能力。

Teach Multimodal LLMs to Comprehend Electrocardiographic Images

➡️ 论文标题:Teach Multimodal LLMs to Comprehend Electrocardiographic Images
➡️ 论文作者:Ruoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang
➡️ 研究机构: The Ohio State University、Carnegie Mellon University
➡️ 问题背景:心电图(ECG)是评估心脏状况的重要非侵入性诊断工具。现有的自动解释方法通常仅限于少数心脏状况的分类任务,且依赖于原始生理信号,这在资源有限的环境中可能不可用。多模态大语言模型(MLLMs)的最新进展为解决这些问题提供了新的可能性。然而,将MLLMs应用于ECG图像解释仍面临挑战,包括缺乏指令调优数据集和评估基准。
➡️ 研究动机:现有的MLLMs在解释ECG图像时,虽然能够生成结构良好且上下文相关的响应,但最终结果往往是不准确的。为了提高ECG图像解释的准确性和可靠性,研究团队构建了大规模的ECG图像指令调优数据集(ECGInstruct),并开发了专门用于ECG图像理解的MLLM(PULSE)。此外,团队还建立了评估基准(ECGBench),以全面评估模型的性能。
➡️ 方法简介:研究团队构建了ECGInstruct,这是一个包含超过一百万个ECG图像-文本样本的大型数据集,涵盖了广泛的ECG相关任务。ECGInstruct的特点包括:1)真实的图像合成,模拟纸质ECG中的常见伪影;2)基于临床专家见解的多样化任务;3)来自不同地理区域的数据源。利用ECGInstruct,团队开发了PULSE模型,并通过ECGBench对其性能进行了评估。
➡️ 实验设计:实验在多个数据集上进行,包括ECGBench中的四个关键任务:异常检测、报告生成、多模态理解和多轮对话。实验设计了不同类型的评估任务,包括闭合式问题、开放式问题、填空题和多选题,以全面评估模型在不同任务中的表现。实验结果表明,PULSE在所有基准测试中均显著优于现有的MLLMs,平均准确率提高了15%到30%。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖头鱼爱算法

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值