
Multimodal
文章平均质量分 68
主要是跟踪多模态大模型的相关文章,作简要介绍和归纳整理。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
首次提出Token级后门攻击Token替换:将输出中的特定源token(如"red")替换为目标token(如"green")Token插入:在输出末尾插入恶意token序列(如钓鱼链接)优化框架提出结合有效性损失(最大化攻击成功率)和实用性损失(保持模型性能)的优化目标通过影子数据集训练实现触发模式与攻击行为的绑定防御验证测试了微调(Fine-tuning)和输入净化(Zero-shot Image Purification)等防御方法的局限性发现Token替换攻击对微调具有较强抗性。原创 2025-04-03 09:30:00 · 65 阅读 · 0 评论 -
Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models
近期多模态大语言模型(MLLMs)在处理海量视频帧时面临计算开销挑战,通常通过压缩策略缓解。然而,视觉内容对用户指令的贡献不均,现有方法(如平均池化)不可避免地导致有用信息丢失。为此,我们提出混合级指令注入策略(HICom),利用指令作为条件从局部和全局层面引导压缩,在减少视觉token的同时保留用户关注的最大信息量。具体而言,指令条件分别注入局部组token和全局可学习token,通过注意力机制完成条件压缩。原创 2025-04-02 09:30:00 · 77 阅读 · 0 评论 -
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
在大型多模态模型(LMMs)中增强推理能力面临着独特挑战,这源于视觉感知和逻辑推理之间的复杂相互作用,尤其是在30亿参数的紧凑型架构中,架构限制了推理能力和模态对齐。虽然基于规则的强化学习(RL)在纯文本领域表现出色,但其向多模态的扩展面临两个关键障碍:(1)由于答案模糊和复杂推理示例稀缺导致的数据限制;(2)多模态预训练导致的基础推理能力下降。为应对这些挑战,我们提出了LMM-R1,这是一个两阶段框架,通过基础推理增强(FRE)和多模态泛化训练(MGT),将基于规则的RL应用于多模态推理。原创 2025-03-22 08:30:00 · 137 阅读 · 0 评论 -
Unified Reward Model for Multimodal Understanding and Generation
近年来,人类偏好对齐技术的进步显著提升了多模态生成与理解能力。关键方法是训练奖励模型来指导偏好优化。然而,现有模型通常针对特定任务设计,限制了其在多样化视觉应用中的适应性。我们认为,联合学习评估多个任务可能产生协同效应,即增强的图像理解可提升图像生成评估能力,而改进的图像评估又能通过更优的帧分析惠及视频评估。为此,本文提出了UNIFIEDREWARD,首个用于多模态理解与生成评估的统一奖励模型,支持成对排序和逐点评分,可用于视觉模型的偏好对齐。原创 2025-03-16 09:30:00 · 99 阅读 · 0 评论 -
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs
我们推出了Phi-4-Mini和Phi-4-Multimodal,这两款模型小巧但功能强大,分别是语言模型和多模态模型。Phi-4-Mini是一个拥有38亿参数的语言模型,在高质量的网页数据和合成数据上进行训练。它在性能上显著超越了近期类似规模的开源模型,在需要复杂推理的数学和编码任务上,表现与参数规模为其两倍的模型相当。这一成果得益于精心策划的合成数据方案,该方案着重采用了高质量的数学和编码数据集。原创 2025-03-11 22:13:30 · 97 阅读 · 0 评论 -
OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
能够在最少人工干预下完成复杂计算机任务的自主智能体,有望变革人机交互方式,显著提升易用性和生产效率。然而,现有的基准测试要么缺乏交互式环境,要么局限于特定应用或领域的环境,无法反映现实世界中计算机使用的多样性和复杂性,进而限制了任务范围和智能体的可扩展性。为解决这一问题,我们推出了OSWORLD,这是首个专为多模态智能体设计的可扩展真实计算机环境,支持在Ubuntu、Windows和macOS等多种操作系统上进行任务设置、基于执行的评估以及交互式学习。原创 2025-03-05 16:44:35 · 445 阅读 · 0 评论 -
Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention
共同注意是儿童早期语言发展的关键组成部分,也是亲子互动有效性的重要指标。然而,目前对共同注意的检测和分析研究仍然有限,尤其是在多模态大语言模型(MLLMs)方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频,评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段,作为评估模型解释能力的基准。我们的研究结果显示,由于当前的多模态大语言模型对儿童发起的眼神交流(这是共同注意动态的关键组成部分)缺乏细致的理解,它们难以准确地解释共同注意。原创 2025-03-11 09:45:00 · 109 阅读 · 0 评论 -
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language
深度学习的最新进展给地震监测带来了革命性变化,但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战,尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM,这是首个利用跨模态迁移进行地震监测的基础模型,它无需在地震数据集上进行直接预训练,就能充分发挥大规模预训练大语言模型的强大能力。原创 2025-03-11 08:30:00 · 105 阅读 · 0 评论 -
Qwen2.5-VL Technical Report
我们推出Qwen2.5-VL,这是Qwen视觉语言系列的最新旗舰模型,它在基础功能和创新功能方面都取得了重大进展。Qwen2.5-VL通过增强的视觉识别、精确的对象定位、强大的文档解析和长视频理解,在理解和与世界互动方面实现了重大飞跃。Qwen2.5-VL的一个突出特征是它能够使用边界框或点准确定位对象。它提供了从发票、表单和表格中提取强大的结构化数据,以及对图表、示意图和布局的详细分析。原创 2025-02-26 15:43:21 · 142 阅读 · 0 评论 -
DYNAMIC-LLAVA: EFFICIENT MULTIMODAL LARGE LANGUAGE MODELS VIA DYNAMIC VISION-LANGUAGE CONTEXT
多模态大型语言模型(MLLM)在视觉理解、推理和交互方面取得了显著的成功。然而,在解码过程中,推理计算和内存随着输出token的生成而逐渐增加,直接影响MLLM的效率。现有的方法试图减少视觉上下文冗余,以实现高效的MLLM。不幸的是,预填充阶段视觉上下文减少的效率效益在解码阶段逐渐降低。为了解决这个问题,我们提出了一种动态视觉语言上下文稀疏化框架dynamic LLaVA,该框架在预填充阶段动态减少了视觉上下文的冗余,并降低了解码过程中生成的语言上下文的内存和计算开销。原创 2025-02-12 10:00:00 · 142 阅读 · 0 评论 -
LLaVA-CoT: Let Vision Language Models Reason Step-by-Step
大型语言模型在推理能力方面取得了长足的进步,特别是通过推理时间缩放,如OpenAI的o1等模型所示。然而,当前的视觉语言模型(VLM)往往难以执行系统和结构化的推理,特别是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了LLaVA CoT,这是一种设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA CoT独立地参与总结、视觉解释、逻辑推理和结论生成的连续阶段。这种结构化方法使LLaVA CoT能够在推理密集型任务的精度方面实现显著提高。原创 2025-01-26 10:15:00 · 142 阅读 · 0 评论 -
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model
数学推理是人类认知的一个核心方面,在从教育问题解决到科学进步的许多领域都至关重要。随着通用人工智能(AGI)的发展,将大型语言模型(LLM)与数学推理任务相结合变得越来越重要。这项调查首次对多模态大语言模型(MLLM)时代的数学推理进行了全面分析。我们回顾了自2021年以来发表的200多项研究,并研究了数学LLM的最新发展,重点关注多模态设置。我们将该领域分为三个维度:基准、方法和挑战。特别是,我们探索了多模态数学推理管道,以及(M)LLM和相关方法的作用。原创 2025-01-12 10:15:00 · 534 阅读 · 0 评论 -
Cross-modal Information Flow in Multimodal Large Language Models
自回归多模态大语言模型(MLLM)的最新进展表明,视觉语言任务取得了有前景的进展。虽然有各种研究调查了大型语言模型中语言信息的处理,但目前对MLLM的内部工作机制以及语言和视觉信息在这些模型中的相互作用知之甚少。在这项研究中,我们的目标是通过检查MLLM中不同模态(语言和视觉)之间的信息流来填补这一空白,重点是视觉问题的回答。具体来说,给定一个图像问题对作为输入,我们研究了模型中的何处以及视觉和语言信息如何结合以生成最终预测。原创 2025-01-05 09:15:00 · 190 阅读 · 0 评论 -
On Domain-Specific Post-Training for Multimodal Large Language Models
近年来,通用多模态大语言模型(MLLM)迅速发展。然而,将通用 MLLM 应用于特定领域(例如科学领域和工业应用)的探索仍然较少。本文通过后训练系统地研究了 MLLM 的领域适应,重点关注数据合成、训练流程和任务评估。(1)数据合成:使用开源模型,我们开发了一种视觉指令合成器,可以有效地从特定领域的图像捕获对生成各种视觉指令任务。在增强 MLLM 的特定领域性能方面,我们的综合任务超越了手动规则、GPT-4 和 GPT-4V 生成的任务。原创 2025-01-03 09:15:00 · 136 阅读 · 0 评论 -
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit
在现有的多模态大型语言模型(MLLM)中过度使用视觉token通常会表现出明显的冗余,并带来高昂的计算成本。为了深入了解这个问题,我们首先对MLLM的注意力行为进行了广泛的实证研究,并总结了MLLM中的三个主要推理阶段:(i)token之间的早期融合首先快速完成。(ii)随后,模态内建模开始发挥作用。(iii)多模态推理恢复并持续到推理结束。特别是,我们发现,当文本token接收到足够的图像信息时,视觉token将停止对推理的贡献,从而产生明显的视觉冗余。原创 2024-12-31 09:15:00 · 152 阅读 · 0 评论 -
PaliGemma 2: A Family of Versatile VLMs for Transfer
PaliGemma 2是基于Gemma 2语言模型家族的PaliGemmar开放视觉语言模型(VLM)的升级版。我们将PaliGemma也使用的SigLIP-So400m视觉编码器与从2B到27B的整个Gemma 2模型相结合。我们在多个阶段以三种分辨率(224px2、448px2和896px2)训练这些模型,使其具备通过微调进行传输的广泛知识。由此产生的涵盖不同模型大小和分辨率的基础模型系列使我们能够研究影响迁移性能的因素(如学习率),并分析任务类型、模型大小和解决方案之间的相互作用。原创 2024-12-24 09:15:00 · 125 阅读 · 0 评论 -
VisionZip: Longer is Better but Not Necessary in Vision Language Models
视觉语言模型的最新进展通过增加视觉token的长度来提高性能,使其比文本token长得多,并显著提高了计算成本。然而,我们观察到,由流行的视觉编码器(如CLIP和SigLIP)生成的视觉token包含大量冗余。为了解决这个问题,我们引入了VisionZip,这是一种简单而有效的方法,可以选择一组信息token作为语言模型的输入,减少视觉token冗余,提高效率,同时保持模型性能。原创 2024-12-10 15:51:23 · 230 阅读 · 0 评论 -
NVILA: Efficient Frontier Visual Language Models
近年来,视觉语言模型(VLMs)在准确性方面取得了重大进展。然而,它们的效率受到的关注要少得多。本文介绍了NVILA,这是一个开放式VLM系列,旨在优化效率和精度。在VILA的基础上,我们通过首先扩大空间和时间分辨率,然后压缩视觉token来改进其模型架构。这种“先缩放后压缩”的方法使NVILA能够高效地处理高分辨率图像和长视频。我们还进行了系统的调查,以提高NVILA从训练和微调到部署的整个生命周期的效率。NVILA在广泛的图像和视频基准测试中与许多领先的开放式和专有VLM的准确性相匹配或超越。原创 2024-12-10 15:19:52 · 238 阅读 · 0 评论 -
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
高性能多模态大型语言模型 (MLLM) 在很大程度上依赖于数据质量。这项研究引入了一个名为 Img-Diff 的新颖数据集,旨在通过利用对比学习和图像差异描述的见解来增强 MLLM 中的细粒度图像识别。通过分析相似图像之间的对象差异,我们挑战模型来识别匹配和不同的组件。我们利用 Stable-Diffusion-XL 模型和先进的图像编辑技术来创建成对的相似图像,以突出显示对象替换。我们的方法包括用于识别对象差异的差异区域生成器,然后是用于详细差异描述的差异标题生成器。原创 2024-11-30 09:00:00 · 155 阅读 · 0 评论 -
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs)
多模态大型语言模型 (MLLM) 利用涵盖文本、图像和音频的综合知识来熟练地解决复杂问题,包括零样本上下文学习场景。本研究探讨了 MLLM 使用描绘二维平面上点分布的图像直观地解决旅行商问题 (TSP) 和多重旅行商问题 (mTSP) 的能力。我们引入了一种在 MLLM 框架内采用多个专门代理的新颖方法,每个代理都致力于针对这些组合挑战优化解决方案。我们的实验研究包括对零样本设置的严格评估,并引入创新的多智能体零样本上下文场景。原创 2024-11-22 10:00:00 · 217 阅读 · 0 评论 -
Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal LLM
多模态大型语言模型 (LLM) 在各种自然语言处理任务(包括从文档中提取数据)中表现出卓越的性能。但是,这些模型的准确性可能会受到文档平面内旋转(也称为倾斜)的显著影响,这是扫描文档的实际场景中的常见问题。本研究调查了文档偏斜对三种最先进的多模态 LLM 的数据提取准确性的影响:Anthropic Claude V3 Sonnet、GPT-4-Turbo 和 Llava:v1.6。我们专注于从合成生成的具有不同偏度的样本文档中提取特定实体。原创 2024-11-13 10:15:00 · 44 阅读 · 0 评论 -
OmniParser for Pure Vision Based GUI Agent
最近大型视觉语言模型的成功表明,在推动代理系统在用户界面上运行方面具有巨大的潜力。然而,我们认为,由于缺乏一种强大的屏幕解析技术,如GPT-4V作为跨不同应用程序的多个操作系统上的通用代理,这种多模态模型在很大程度上被低估了,该技术能够:1)可靠地识别用户界面内的可交互图标,2)理解屏幕截图中各种元素的语义,并准确地将预期动作与屏幕上的相应区域相关联。原创 2024-11-07 10:00:00 · 234 阅读 · 0 评论 -
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
GPT-4o是一个包罗万象的模型,代表了大型多模态语言模型发展的一个里程碑。它可以理解视觉、听觉和文本模式,直接输出音频,并支持灵活的双工交互。开源社区的模型通常可以实现GPT-4o的一些功能,如视觉理解和语音聊天。然而,由于多模态数据、复杂的模型架构和训练过程的复杂性,训练一个包含所有模态的统一模型是具有挑战性的。在本文中,我们介绍了Mini-Omni2,一种能够为视觉和音频查询提供实时端到端语音响应的视听助手。通过集成预训练的视觉和听觉编码器,Mini-Omni2可以保持单个模态的性能。原创 2024-11-07 09:45:00 · 100 阅读 · 0 评论 -
A Survey of Multimodal Large Language Model from A Data-centric Perspective
多模态大型语言模型 (MLLM) 通过集成和处理来自多种模态(包括文本、视觉、音频、视频和 3D 环境)的数据来增强标准大型语言模型的功能。数据在这些模型的开发和改进中起着关键作用。在这项调查中,我们从以数据为中心的角度全面回顾了有关 MLLM 的文献。具体来说,我们探索了在 MLLM 的预训练和适应阶段准备多模态数据的方法。此外,我们还分析了数据集的评估方法,并回顾了评估 MLLM 的基准。我们的调查还概述了未来潜在的研究方向。原创 2024-10-26 19:23:10 · 164 阅读 · 0 评论 -
Movie Gen: A Cast of Media Foundation Models
我们介绍Movie Gen,这是一系列基础模型,可以生成具有不同宽高比和同步音频的高质量1080p高清视频。我们还展示了其他功能,例如基于精确指令的视频编辑和基于用户图像的个性化视频生成。我们的模型在多个任务上设定了最新的技术水平:文本到视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成。我们最大的视频生成模型是一个30B参数transformer,其最大上下文长度为73K视频token,对应于以每秒16帧的速度生成16秒的视频。原创 2024-10-23 09:00:00 · 194 阅读 · 0 评论 -
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
多模态大语言模型(MLLMs)被广泛认为是通用人工智能(AGI)研究的关键。MLLM的核心在于其实现跨模态对齐的能力。为了实现这一目标,当前的MLLM通常遵循两个阶段的训练范式:预训练阶段和指令调优阶段。尽管取得了成功,但这些模型中对齐能力的建模仍存在不足。首先,在预训练阶段,模型通常假设所有图像文本对都是一致对齐的,但事实上不同图像文本对之间的对齐程度是不一致的。其次,目前用于微调的指令包含各种任务,不同任务的指令通常需要不同级别的对齐能力,但之前的MLLM忽略了这些差异化的对齐需求。原创 2024-10-20 11:33:47 · 222 阅读 · 0 评论 -
Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning
本文提出了第一项研究,探讨了多模态大型语言模型参数量化的潜力,以减轻视觉语言指令调整过程中遇到的重大资源限制。我们介绍了一种基于多模态预热的量化感知 Scale LeArning 方法,称为 QSLAW。该方法基于两项关键创新:(1) 学习量化 LLM 权重的分组比例因子,以减轻由激活异常值引起的量化误差并实现更有效的视觉语言指令调整;(2) 实现多模态热身,逐步整合语言和多模态训练样本,从而防止量化模型与多模态数据的过度拟合,同时确保多模态大型语言模型稳定适应下游视觉语言任务。原创 2024-10-08 15:29:57 · 253 阅读 · 0 评论 -
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Reference
新兴的多模态大型语言模型 (MLLM) 在图表问答 (CQA) 方面表现出巨大的潜力。最近的工作主要集中在通过数据收集和合成来扩大训练数据集(即图表、数据表和问答 (QA) 对)。然而,我们对现有 MLLM 和 CQA 数据集的实证研究揭示了显着的差距。首先,当前的数据收集和合成侧重于数据量,缺乏对细粒度视觉编码和 QA 任务的考虑,导致数据分布不平衡,与实际 CQA 场景不同。其次,现有工作遵循最初为自然图像设计的基本 MLLM 的训练配方,探索对独特图表特征(如富文本元素)的适应。原创 2024-10-08 15:24:36 · 208 阅读 · 0 评论 -
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
大型语言模型 (LLM) 具有先进的金融应用,但它们通常缺乏足够的金融知识,并且难以处理涉及表格和时间序列数据等多模态输入的任务。为了解决这些限制,我们引入了 Open-FinLLM,这是一系列金融 LLM。我们从 FinLLaMA 开始,它在 520 亿个token金融语料库上进行了预训练,结合文本、表格和时间序列数据来嵌入全面的金融知识。然后,FinLLaMA 使用 573K 财务指令进行指令微调,形成 FinLLaMA 指令,从而提高任务性能。原创 2024-09-22 09:57:41 · 191 阅读 · 0 评论 -
A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models
深度学习的最新进展彻底改变了计算病理学 (CPath) 领域,通过将基础模型 (FM) 和视觉语言模型 (VLM) 集成到病理学家的评估和决策过程中,反过来又改变了病理学家的诊断工作流程。FM 通过学习表示空间来克服 CPath 中现有深度学习方法的局限性,该表示空间可以在没有明确监督的情况下适应各种下游任务。VLM 允许将用自然语言编写的病理报告用作丰富的语义信息源,以改进现有模型并以自然语言形式生成预测。在本次调查中,对 CPath 中 FM 和 VLM 的最新创新进行了全面、系统的概述。原创 2024-09-19 15:05:17 · 102 阅读 · 0 评论 -
DIFFUSION MODELS ARE REAL-TIME GAME ENGINES
我们介绍GameNGen,这是第一个完全由神经模型驱动的游戏引擎,它能够在长轨迹上与复杂环境进行高质量的实时交互。GameNGen可以在单个TPU上以每秒超过20帧的速度交互式模拟经典游戏DOOM。下一帧预测的PSNR为29.4,与有损JPEG压缩相当。人类评分员在区分游戏短片和模拟短片方面只比随机机会好一点。GameNGen的训练分为两个阶段:(1)RL代理学习玩游戏并记录训练过程,(2)训练扩散模型以产生下一帧,条件是过去帧和动作的顺序。调节增强可以在长轨迹上实现稳定的自回归生成。原创 2024-09-06 10:12:43 · 137 阅读 · 0 评论 -
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations
我们提出了xGen-VideoSyn-1,这是一种文本到视频(T2V)生成模型,能够从文本描述中生成逼真的场景。我们通过引入视频变分自编码器(VidVAE)来扩展潜在扩散模型(LDM)架构。我们的视频VAE在空间和时间上压缩视频数据,显著减少了视觉标记的长度以及与生成长序列视频相关的计算需求。为了进一步解决计算成本问题,我们提出了一种分割合并策略,该策略可以保持视频片段之间的时间一致性。我们的扩散Transformer(DiT)模型结合了空间和时间自我关注层,实现了跨不同时间框架和纵横比的鲁棒泛化。原创 2024-09-06 10:06:16 · 189 阅读 · 0 评论 -
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
我们介绍了Transfusion,这是一种在离散和连续数据上训练多模态模型的方法。Transfusion将语言建模损失函数(下一个token预测)与扩散相结合,在混合模态序列上训练单个Transformer。我们在文本和图像数据的混合上从头开始预训练多达7B个参数的多个Transfusion模型,建立了关于各种单模态和跨模态基准的缩放规律。我们的实验表明,Transfusion的缩放效果明显优于量化图像和在离散图像token上训练语言模型。原创 2024-09-02 17:20:26 · 324 阅读 · 0 评论 -
Joint Visual and Text Prompting for Zero-Shot Object-Oriented Perception with Multimodal LLM
多模态大型语言模型(MLLM),如GPT-4V和Gemini Pro,在视觉问答(VQA)中实现人类水平的感知方面面临挑战,特别是在面向对象的感知任务中,这些任务需要对对象身份、位置或属性进行细粒度的理解,正如实证结果所表明的那样。这主要是因为它们将复杂的视觉线索与文本信息和潜在的物体幻觉有效整合的能力有限。本文提出了一种新的方法,即联合视觉和文本提示(VTPrompt),该方法利用细粒度的视觉信息来增强VQA中MLLM的能力,特别是面向对象的感知能力。原创 2024-09-01 11:54:08 · 95 阅读 · 0 评论 -
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
本报告介绍了xGen-MM(也称为BLIP-3),这是一个用于开发大型多模态模型(LMM)的框架。该框架由精心策划的数据集、训练配方、模型架构和由此产生的LMM套件组成。xGen-MM是xGen-MultiModal的缩写,它在基础AI模型上扩展了Salesforce的xGen计划。我们的模型经过一系列任务的严格评估,包括单图像和多图像基准测试。我们的预训练基础模型表现出强大的上下文学习能力,而指令调优模型在具有相似模型大小的开源LMM中表现出了具有竞争力的性能。原创 2024-08-30 13:39:42 · 359 阅读 · 0 评论 -
A Survey on Benchmarks of Multimodal Large Language Models
多模态大语言模型基准调查多模态大语言模型(MLLM)由于其在视觉问答、视觉感知、理解和推理等各种应用中的出色表现,在学术界和工业界越来越受欢迎。在过去的几年里,人们付出了巨大的努力来从多个角度审视 MLLM。本文对 MLLM 的 200 个基准和评估进行了全面回顾,重点关注 (1) 感知和理解、(2) 认知和推理、(3) 特定领域、(4) 关键能力和 (5) 其他模式。最后,我们讨论了当前 MLLM 评估方法的局限性,并探讨了有前景的未来方向。原创 2024-08-29 10:22:48 · 654 阅读 · 0 评论 -
LITE: Modeling Environmental Ecosystems with Multimodal Large Language Models
环境生态系统的建模在我们星球的可持续管理中起着关键作用。对关键环境变量在空间和时间上的准确预测有助于制定明智的政策和决策,从而改善民生。最近,基于深度学习的方法在预测环境变量的时空关系建模方面显示出了希望。然而,由于数据收集的高昂成本和测量仪器的故障,这些方法在处理环境数据中常见的不完整特征和分布变化方面往往不足。为了解决这些问题,我们提出了LITE——一种用于环境生态系统建模的多模态大型语言模型。具体来说,LITE通过将不同的环境变量转换为自然语言描述和折线图图像来统一它们。原创 2024-08-26 17:10:01 · 89 阅读 · 0 评论 -
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning
视觉语言预训练显著提高了各种图像语言应用程序的性能。然而,视频相关任务的预训练过程需要非常大的计算和数据资源,这阻碍了视频语言模型的进步。本文研究了一种简单、高效、资源少的方法,用于调整现有的图像语言预训练模型,以实现密集视频理解。我们的初步实验表明,直接微调预训练的图像语言模型,将多帧作为视频数据集的输入,会导致性能饱和甚至下降。我们进一步的研究表明,这在很大程度上归因于学习到的高范数视觉特征的偏见。原创 2024-08-24 19:16:01 · 150 阅读 · 0 评论 -
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
我们介绍了Groma,一种具有基准和细粒度视觉感知能力的多模态大型语言模型(MLLM)。除了全面的图像理解,Groma还擅长区域级任务,如区域字幕和视觉基础。这些功能建立在本地化的视觉标记化机制之上,在该机制中,图像输入被分解为感兴趣的区域,随后被编码为区域标记。通过将区域标记集成到用户指令和模型响应中,我们无缝地使Groma能够理解用户指定的区域输入,并将其文本输出基于图像。此外,为了增强Groma的基准聊天能力,我们利用强大的GPT-4V和视觉提示技术策划了一个视觉基准指令数据集。原创 2024-08-20 15:05:11 · 223 阅读 · 0 评论 -
Towards Efficient Resume Understanding: A Multi-Granularity Multi-Modal Pre-Training Approach
在当今广泛的在线招聘时代,简历理解已被广泛认为是一项基本而关键的任务,其目的是从简历文档中自动提取结构化信息。与传统的基于规则的方法相比,使用最近提出的预训练文档理解模型可以大大提高简历理解的有效性。然而,目前的方法忽略了简历中呈现的结构化信息中的层次关系,并且难以有效地解析简历。为此,本文提出了一种新的模型,即ERU,以实现高效的简历理解。具体来说,我们首先引入了一种布局感知的多模态融合transformer,用于用集成的文本、视觉和布局信息对简历中的片段进行编码。原创 2024-08-20 14:55:50 · 65 阅读 · 0 评论