- 博客(304)
- 资源 (4)
- 收藏
- 关注
原创 多模态大语言模型arxiv论文略读(101)
基于理论分析和实证观察,研究团队揭示了学习不平衡背后的原因,并提出了CoMMIT方法,该方法结合了动态学习率调度器和辅助损失正则化,以促进每个模型组件的更新,防止学习梯度减少,提高学习平衡系数的估计准确性。➡️ 研究动机:现有的研究已经揭示了MLLMs在指令调优过程中,特征编码器和语言模型之间的学习不平衡问题,这可能导致学习梯度减少,进而影响模型的收敛速度和最终性能。实验结果表明,即使在较少的训练数据下,所提出的方法也能显著提高模型的性能,特别是在复杂的推理和视觉-组合问题上。
2025-05-30 09:36:20
404
原创 多模态大语言模型arxiv论文略读(100)
大型模型(包括大型语言模型LLM、大型视觉模型LVM和大型视觉-语言模型LVLM)在农业领域的应用,能够帮助农民提高生产效率和产量,通过检测病虫害、土壤质量、种子质量等农业任务,以及利用图像、文本等信息帮助农民做出明智决策。➡️ 方法简介:研究团队提出了LLAVADI框架,通过特征嵌入蒸馏、logit级蒸馏、亲和力感知蒸馏和数据驱动的知识蒸馏四种方法,系统地研究了从强大的教师模型到学生模型的知识转移。本研究旨在全面探索MLLMs的知识蒸馏,回答“在MLLMs的知识蒸馏中,哪些方面最为关键”的问题。
2025-05-30 09:34:37
360
原创 多模态大语言模型arxiv论文略读(九十九)
实验设计了不同因素的变化,如对象和部件级别的数据集组合,以及不同类型的评估指标,以全面评估模型在不同条件下的表现。➡️ 方法简介:研究团队提出了一种系统的方法,通过构建高质量的阿拉伯语多模态数据集,优化训练数据的选择和使用,确保Dallah能够使用反映阿拉伯世界语言多样性的高质量、相关多模态数据集进行微调。➡️ 问题背景:科学图表在科学交流中扮演着重要角色,但目前的研究主要集中在数据驱动的图表(如饼图、线图和条形图)上,对于包含复杂领域特定信息的框架图和流程图的解析能力有限。
2025-05-29 09:13:02
770
原创 多模态大语言模型arxiv论文略读(九十八)
➡️ 研究动机:为了提高多模态情感识别的准确性和细致度,研究团队提出了MicroEmo,一个时间敏感的MLLM,旨在关注面部微表情的时间动态和话语感知视频片段的上下文依赖性。4) 通过微调LLMs的少量参数来选择最终的实体。该方法通过动态聚合模态特定和模态无关的LoRA专家,部分解耦多模态生成空间,从而在不显著增加参数的情况下,提升模型的多模态生成能力。➡️ 问题背景:当前的多模态生成模型在视觉文本理解与生成任务中表现出色,但同时生成图像和文本时,由于视觉和语言模态之间的固有不一致性,通常会导致性能下降。
2025-05-29 09:11:57
633
原创 多模态大语言模型arxiv论文略读(九十七)
实验结果表明,CHOPINLLM在理解标注和未标注的图表方面表现出色,能够有效提取图表中的潜在数据,并进行准确的推理。➡️ 方法简介:研究团队提出了一种系统的方法,通过结合原始数据值的对齐预训练、在端到端微调中随机替换图表图像为纯文本表示,以及在微调阶段要求模型先提取图表数据再回答问题,来增强MLLMs的图表理解能力。为了克服OOD问题并提高语义通信系统的性能,研究团队提出了一种利用多模态大语言模型(MLLMs)的方法,通过结合MLLMs的广泛知识和传统ML模型的领域专长,增强系统的OOD处理能力。
2025-05-28 08:52:09
945
原创 多模态大语言模型arxiv论文略读(九十六)
当前的方法,如CLIP,虽然在文本-图像检索任务中表现出色,但在处理交错的视觉和语言输入时存在局限性,如对复杂文本的理解能力较低,以及在组合图像检索任务中的表现不佳。任务干扰是多任务学习中的一个基本且关键的问题,尤其是在多模态学习中,视觉和语言模态的任务差异导致了模型性能的下降。➡️ 问题背景:当前的多模态大语言模型(MLLMs)在自然场景中已经取得了显著的进展,但在遥感(RS)领域,这些模型主要集中在图像级别的视觉-语言对齐,缺乏对区域、点和像素级别的细粒度解释能力。
2025-05-28 08:49:35
870
原创 多模态大语言模型arxiv论文略读(九十五)
➡️ 方法简介:研究团队提出了一种名为MLLM-Refusal的方法,该方法通过优化拒绝扰动,使竞争的MLLMs在接收到包含扰动图像和安全问题的提示时,更可能拒绝响应。➡️ 方法简介:研究团队利用可视化素养的概念,开发了一种通用的评估框架,用于比较不同的多模态大语言模型(如GPT4-o、Claude 3 Opus、Gemini 1.5 Pro)以及与人类基线的表现。实验设计了不同的少样本设置,包括随机选择的示例和与查询图像-文本对相似的示例,以及使用和不使用CoT的设置,以全面评估模型在不同条件下的表现。
2025-05-27 08:44:43
1094
原创 多模态大语言模型arxiv论文略读(九十四)
然而,当前的图像描述引擎在提供完整和准确的注释方面存在局限性,尤其是在细粒度视觉线索的识别上。➡️ 研究动机:为了促进MLLMs在全面视觉感知方面的发展,研究团队提出了一种新的方法——感知融合(Perceptual Fusion),通过整合多种视觉专家模型作为图像先验,利用低成本但高效的MLLM作为中心枢纽,生成详尽的图像描述。为了填补这一空白,研究团队从数据-模型协同发展的角度,系统地回顾了MLLMs的相关工作,旨在揭示数据技术如何促进MLLMs的发展,以及训练良好的模型如何促进多模态数据技术的进步。
2025-05-27 08:42:30
892
原创 多模态大语言模型arxiv论文略读(九十三)
为了弥补这些不足,研究团队引入了一个大规模的主观反应指标数据集(SRI-ADV),该数据集通过收集不同人群在观看广告视频时的脑电图(EEG)和眼动追踪数据,提供了丰富的模态信息和全面的问答对,以评估视频的吸引力和隐含因素。研究旨在揭示这些模型的优势和局限性,并为未来的优化提供见解。为了更全面地理解视频内容,研究团队开发了一个新的大规模数据集SRI-ADV,并提出了一个超图多模态大型语言模型(HMLLM),旨在通过整合视频、EEG和眼动追踪数据,进行逻辑推理和语义分析,从而填补视频理解领域的空白。
2025-05-26 13:26:42
696
原创 多模态大语言模型arxiv论文略读(九十二)
现有的多模态数据集主要集中在感知任务上,而复杂的多模态推理任务,如解释图表、日常推理、批判性思维和问题解决等,需要感知和逻辑推理的结合。实验评估了不同因素(如视频描述、问题和答案的复杂性)对生成CoT的影响,并通过多个维度(如流畅性、背景描述、时空变化、对象关系和总结)对生成的CoT进行了质量评估。MindBench不仅包括精心构建的双语真实或合成图像、详细的注释、评估指标和基线模型,还特别设计了五种类型的结构化理解和解析任务,旨在全面评估模型解析文本和图像信息、识别元素间关系以及理解整体结构的能力。
2025-05-26 13:24:31
837
原创 多模态大语言模型arxiv论文略读(九十一)
实验设计了不同的任务和模态,以全面评估MMedAgent的性能。➡️ 研究动机:为了克服上述限制,研究团队构建了一个大规模的3D脑CT数据集(18,885个文本-扫描对),并应用临床视觉指令调优(CVIT)训练了能够生成放射学附合3D脑CT报告的BrainGPT模型。➡️ 方法简介:TokenPacker采用了一种从粗到细的策略,首先将视觉特征插值为低分辨率的点查询,然后通过区域到点的注入模块,利用高分辨率的多层级区域特征作为细粒度的参考键和值,更新低分辨率的点查询,生成紧凑且丰富的视觉令牌。
2025-05-23 08:51:34
1064
原创 多模态大语言模型arxiv论文略读(九十)
➡️ 论文标题:Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach➡️ 论文作者:Cheng Su, Jinbo Wen, Jiawen Kang, Yonghua Wang, Yuanjia Su, Hudan Pan, Zishao Zhong, M. Shamim Hossain➡️ 研究机
2025-05-23 08:49:38
1191
原创 多模态大语言模型arxiv论文略读(八十九)
例如,给定“解析此网页的HTML代码”的指令时,LLaVA-1.5等模型生成的代码质量较差,无法保留原始网页的大部分特征,这限制了其在UI原型设计、自动化代理和可访问性等应用中的实用性。通过这些测试,研究团队评估了MLLMs在不同任务中的表现,发现即使是当前最先进的模型,如Gemini-Pro,在基本的感知任务和安全评估方面也存在显著的不足。➡️ 研究动机:为了克服现有数据选择方法的局限性,研究团队提出了一种新的数据选择方法,该方法利用图像-文本相关性和模型困惑度来评估和选择不同质量的数据。
2025-05-22 08:56:38
1023
原创 多模态大语言模型arxiv论文略读(八十八)
所有模型的表现都远低于人类的80.5%。➡️ 研究动机:为了应对ScreenPR任务的挑战,研究团队开发了Tree-of-Lens (ToL) 代理,利用先进的多模态大语言模型(MLLMs)的泛化能力,处理来自不同领域的GUI截图,并根据用户指示的屏幕上的任意点生成自然语言描述。➡️ 研究动机:为了提高医疗多模态模型的性能,研究团队提出了一种新的方法,通过利用“非盲”多模态大语言模型(MLLMs)来重新格式化PubMed的图像-文本对,以减少数据噪声并生成更高质量的医疗视觉问答(VQA)数据集。
2025-05-22 08:46:45
1229
原创 多模态大语言模型arxiv论文略读(八十七)
➡️ 实验设计:研究团队在四个最近的MLLM骨干模型(LLaVA-v1.5-7B/13B、MobileVLM-v2、InternVL-v1.5)上进行了实验,涵盖了MileBench基准中的多个多模态长上下文任务,包括时间多图像任务、语义多图像任务、针在草堆任务和图像检索任务。为了进一步理解这一现象,并探索其背后的原因,研究团队开发了多模态过度敏感基准(MOSSBench),旨在系统地评估MLLMs在面对不同类型的视觉刺激时的过度敏感程度,为未来的安全机制改进提供有价值的见解。
2025-05-21 08:49:25
944
原创 多模态大语言模型arxiv论文略读(八十六)
此外,研究团队提出了一种数据合成管道,基于40,000张图像和种子问题合成了320,000个新的问题-答案对,创建了MathV360K数据集,显著扩展了多模态数学推理的覆盖范围。研究团队通过使用LLMs和视觉指令调优作为接口,评估了各种视觉表示,提供了对不同模型和架构的新见解。➡️ 研究动机:为了解决现有评估方法在合成图像评估中的不足,研究团队提出了EVALALIGN,这是一种新的评估指标,旨在通过细粒度的人类反馈数据对多模态大语言模型(MLLMs)进行监督微调(SFT),以实现与人类评估偏好的一致性。
2025-05-21 08:46:51
997
原创 多模态大语言模型arxiv论文略读(八十五)
➡️ 方法简介:研究团队设计了MR-MLLM框架,该框架通过共享查询融合机制、感知增强的跨模态集成方法和感知嵌入的提示生成方法,深化了视觉和语言模态之间的互动。感知增强的跨模态集成方法通过引入视觉感知模型的输出,如目标检测的边界框,捕捉微妙的视觉元素,丰富了对多模态内容的理解。此外,MR-MLLM显著提升了视觉感知模型在处理边缘案例检测任务中的能力,特别是在CODA检测数据集上,MR-MLLM将基线视觉感知模型的边缘案例平均召回率提高了2%,并赋予了封闭集训练的专用检测器检测新类别的能力。
2025-05-20 08:37:21
1121
原创 多模态大语言模型arxiv论文略读(八十四)
实验设计了不同的数据处理方法,包括滑动窗口大小的变化、文本上下文表示的使用,以及图像增强技术的应用,以全面评估模型在不同条件下的性能。➡️ 问题背景:近年来,随着大型语言模型(LLM)和多模态大型语言模型(MLLM)的快速发展,这些模型在自动化任务执行,尤其是移动设备上的GUI导航任务中展现出巨大潜力。然而,现有的研究和应用主要集中在单一模态的数据处理上,如仅使用RGB图像或热成像。然而,多模态大语言模型(MLLMs)的出现提供了一种新的方法,通过整合文本、视觉和音频模态,实现对驾驶视频的自动化分析。
2025-05-20 08:36:55
613
原创 多模态大语言模型arxiv论文略读(八十三)
然而,现有的遥感数据集,如RSI-CD、DOTA等,已不再适合新的任务需求。这些数据集主要由图像和注释组成,注释包括标签、边界框和文本,但通常预设了有限的场景和目标类别,主要考察模型对特定类别的识别能力,而忽视了模型对复杂场景和目标之间关系的深入理解和推理能力。➡️ 研究动机:为了适应新的LaGD范式,研究团队设计了一个高质量、多样化且统一的多模态指令跟随数据集(RS-GPT4V),旨在通过以下特点提升模型的泛化能力、复杂场景理解能力和推理能力:(1)泛化:训练模型学习任务之间的共享知识,并适应不同任务;
2025-05-19 08:52:25
1102
原创 多模态大语言模型arxiv论文略读(八十二)
➡️ 实验设计:在MovieChat数据集上进行了实验,实验设计了不同的组件(如链式思维、CLIP Score指导的帧采样、上下文学习)的变化,以及不同模式(全局模式和断点模式)的评估,以全面评估模型在不同条件下的表现。➡️ 研究动机:为了应对LLMs和MLLMs在特定领域训练时的灾难性遗忘问题,研究团队提出了一种新的模型无关的自解压方法——树生成(Tree Generation, TG),该方法通过将LLMs中的知识解压到训练语料库中,以减少遗忘问题。
2025-05-19 08:50:06
1087
原创 多模态大语言模型arxiv论文略读(八十一)
本文摘要涵盖了五篇关于多模态大语言模型(MLLMs)的研究论文,分别探讨了视觉认知差距、交错图像-文本生成、人类动作合成、对象感知知识增强以及知识密集型多模态自动语音识别(ASR)等主题。研究团队通过构建新数据集、提出新基准和评估指标,以及设计创新方法,揭示了MLLMs在不同任务中的表现与人类智能的差距,并提出了改进方向。例如,MaRs-VQA数据集和VCog-Bench基准用于评估MLLMs在抽象视觉推理任务中的表现;CoMM数据集旨在提高交错图像-文本生成的连贯性和一致性;FreeMotion框架探索了
2025-05-18 20:20:24
733
原创 多模态大语言模型arxiv论文略读(八十)
本文介绍了五篇关于多模态大语言模型(MLLMs)的研究论文,分别从不同角度探讨了MLLMs在视频理解、多语言多模态文档处理、关系理解、流程图理解以及图像-文本交错理解等方面的能力。MMWorld提出了一个多学科、多方面的视频理解基准,评估MLLMs的世界建模能力;mOSCAR构建了一个大规模多语言多模态文档语料库,提升了MLLMs的少样本学习性能;MMRel开发了一个关系理解基准,旨在增强MLLMs的关系理解能力;FlowCE首次全面评估了MLLMs在流程图任务中的表现;VEGA则研究了MLLMs在图像-文
2025-05-18 20:17:59
985
原创 多模态大语言模型arxiv论文略读(七十九)
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,涵盖了从视觉感知到视觉理解的各种任务,包括弱交互(如封闭集任务)和强交互(如视觉提示+语言提示)任务,以及常见领域和长尾领域(如医疗、遥感、工业)的任务。➡️ 方法简介:AIM框架通过将多模态演示中的图像信息聚合到文本的潜在空间中,生成融合的虚拟标记,以替代原始的图像-文本对。基于这一发现,研究团队提出了一种新的框架AIM,通过将多模态演示中的图像信息聚合到文本的潜在空间中,减少视觉标记的数量,从而提高MLLMs在多模态ICL中的效率和性能。
2025-05-16 10:07:16
1191
原创 多模态大语言模型arxiv论文略读(七十八)
此外,多模态的特性引入了新的风险,如对对抗性图像攻击的敏感性、图像中的有毒内容以及通过视觉上下文进行的越狱等。因此,研究团队提出了一种自动框架——图像文本化(Image Textualization, IT),旨在利用现有的多模态大语言模型和多个视觉专家模型,以协作方式生成高质量的图像描述。➡️ 方法简介:研究团队提出了一种多模态大语言模型(MLLM)来预测未来视频的状态,并设计了双查询变压器(DQFormer)架构,将文本和视觉条件整合为多条件(MCondition),以指导视频预测。
2025-05-16 10:05:00
853
原创 MoE开山之作(1991年)——Adaptive Mixtures of Local Experts
长久以来,训练单个多层网络来执行不同子任务常常会产生严重的干扰效应 ,导致学习缓慢和泛化能力差。如果我们事先知道训练集可以自然地分成对应不同子任务的子集,那么可以通过构建由多个“专家”网络和一个决定训练数据使用哪个“专家”网络的MoE模型,来减少干扰。这类系统的一个核心思想是,门控网络将训练数据分配给一个或几个专家,如果输出不正确,权重变化仅限于这些专家(和门控网络)。然而,现有的这类系统通常使用一种鼓励专家之间相互合作而非独立的损失函数。这意味着每个专家必须调整其输出,以抵消所有其他专家留下的残余误差。
2025-05-16 09:37:40
1265
原创 多模态大语言模型arxiv论文略读(七十七)
➡️ 研究动机:现有的研究主要集中在单模态大语言模型(LLMs)的PEFT方法上,而对于多模态模型(MLLMs)的PEFT方法研究较少。➡️ 研究动机:为了解决上述限制,研究团队构建了CVQA,这是一个新的、大规模的、多语言的、文化多样性的VQA基准,旨在覆盖丰富的语言和文化,通过与本地语言使用者和文化专家合作收集数据。实验设计了不同因素的变化,如PEFT模块的位置(注意力层、MLP层或两者)、微调数据的规模(低资源、中资源、高资源),以及不同类型的PEFT方法,以全面评估模型在不同条件下的表现。
2025-05-15 08:52:04
842
原创 多模态大语言模型arxiv论文略读(七十六)
为了评估REAMO的性能,研究团队构建了一个包含3,000个实例的高质量测试集,涵盖了9种常见模态组合下的NER、RE和EE任务,进一步标注了模态共享和特定内容,以模拟对齐和不对齐的模态场景。为了填补这一空白,本文首次引入了基于多模态的通用信息抽取(Multimodal Universal Information Extraction, MUIE)的概念,提供了一个统一的任务框架,用于分析各种模态上的IE任务,以及它们的细粒度定位。最后,通过在生成的合成数据上微调源模型,使其适应合成域。
2025-05-15 08:50:08
1049
原创 多模态大语言模型arxiv论文略读(七十五)
实验评估了AD-H在不同环境和指令下的表现,特别是在长时规划和新环境中的泛化能力。➡️ 方法简介:研究团队提出了一种系统的方法,通过将布局信息表示为结构化的自然语言(JSON格式),并利用预训练的视觉头部将输入图像转换为适应文本标记空间的表示,然后对大语言模型(LLM)进行微调,以解释和生成布局数据。➡️ 研究动机:为了充分利用预训练的MLLMs在高层次感知、推理和规划中的潜在能力,研究团队提出了一种分层多代理驾驶系统(AD-H),通过引入中间层次的命令来桥接高层次指令和低层次控制信号之间的差距。
2025-05-14 08:48:19
1165
原创 多模态大语言模型arxiv论文略读(七十四)
研究团队提出了一种新的方法,通过利用多模态大语言模型(MLLMs)生成高质量的文本描述,并利用这些生成的文本作为元数据来净化IAA数据集中的噪声,从而构建一个统一的质量和美学图像-文本数据集。为了解决这些问题,研究团队开发了xLLaMA-100和xBLOOM-100(统称为xLLMs-100),旨在扩展LLMs的多语言能力至100种语言,并通过多语言指令调优和跨语言人类反馈对齐,提升模型的理解和生成能力。因此,扩展LLMs的多语言能力,特别是支持低资源语言,成为当前研究的重要方向。
2025-05-14 08:46:15
549
原创 多模态大语言模型arxiv论文略读(七十三)
尽管近年来的研究在图像外扩方面取得了显著进展,但这些方法通常假设给定的子图像是唯一的输入,这限制了它们在实际场景中的应用和可扩展性。➡️ 问题背景:当前的多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,但在移动设备操作任务中,由于训练数据的限制,这些模型作为操作助手的能力有限。➡️ 研究动机:为了弥补现有MLLMs在视频理解上的不足,特别是针对复杂视频中的目标指代理解,研究团队提出了Artemis,这是一个能够对视频中的特定目标进行细粒度描述的MLLM。
2025-05-13 08:42:21
700
原创 多模态大语言模型arxiv论文略读(七十二)
➡️ 论文标题:DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models➡️ 论文作者:Linli Yao, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, Lu Hou➡️ 研究机构: 北京大学、香港大学、华为诺亚方舟实验室。
2025-05-13 08:39:33
813
原创 多模态大语言模型arxiv论文略读(七十一)
➡️ 实验设计:实验在两个流行的MLLMs(InstructBLIP和LLaVA-v1.5)上生成对抗性样本,并在多个受害模型(包括不同版本的BLIP2、InstructBLIP、MiniGPT-4、LLaVA-v1.5和LLaVA-v1.6)上测试这些样本的可转移性。然而,目前缺乏对MLLMs生成的对抗性样本的跨模型可转移性的系统研究。尽管在单模态生成方面已经取得了显著进展,但如何有效地利用LLMs来增强多模态生成的质量和功能,特别是在图像、视频、3D和音频等领域的生成和编辑,仍然是一个重要的研究方向。
2025-05-12 10:43:47
1044
原创 多模态大语言模型arxiv论文略读(七十)
实验设计了不同的指令类型(如部件定位、材料定位和组合定位),以及不同类型的点云数据,以全面评估模型在部件级别上的理解和定位能力。➡️ 研究动机:为了解决现有视频编辑模型的局限性,研究团队提出了RACCooN,一个多功能且用户友好的视频编辑框架,该框架通过自动生成的叙述支持多种视频编辑能力,如移除、添加和修改视频内容。➡️ 问题背景:尽管多模态大语言模型(MLLMs)在结合视觉和语言的任务中取得了显著进展,但在详细多模态理解、复杂任务的处理和多模态信息的推理方面仍存在挑战。
2025-05-12 10:42:01
947
原创 多模态大语言模型arxiv论文略读(六十九)
本文从数据驱动的角度全面回顾了MLLMs的文献,探讨了预训练和适应阶段的多模态数据准备方法,分析了数据集的评估方法,并回顾了评估MLLMs的基准。具体包括数据收集的来源、数据处理的方法(如过滤、去重和增强)、数据选择的方法(如主动学习、分布无关和分布相关选择),以及数据评估的方法和评估基准。➡️ 实验设计:本文没有具体描述实验设计,而是通过文献回顾的方式,总结了不同阶段的数据处理方法和评估标准,包括数据收集的来源、数据处理的方法、数据选择的方法,以及数据评估的方法和评估基准。
2025-05-11 21:03:11
1016
原创 多模态大语言模型arxiv论文略读(六十八)
➡️ 方法简介:研究团队构建了一个联合开放世界定位(OWL)和多模态大型语言模型(MLLM)的架构(J),通过将OWL-ViT的视觉编码器与LLaVa的语言模型结合,并训练一个对齐的多层感知机(MLP)W,使得模型能够从同一视觉嵌入中同时生成文本和边界框输出。➡️ 研究动机:为了提高MLLMs的可解释性,研究团队提出了一种新的方法,通过结合开放世界定位模型(OWL-ViT)和多模态大型语言模型(MLLMs),创建了一个新的架构,能够同时从同一视觉嵌入中生成文本和对象定位输出。
2025-05-11 21:00:09
1048
原创 多模态大语言模型arxiv论文略读(六十七)
本文摘要涵盖了五篇关于多模态大语言模型(MLLMs)的研究论文,分别探讨了不同方面的创新和改进。首先,Uni-MoE提出了一种基于Mixture of Experts(MoE)架构的统一MLLM,能够处理视频、图像、文本、音频和语音等多种模态,通过三阶段训练策略提高模型效率和性能。其次,MTVQA构建了一个多语言文本中心视觉问答基准,旨在解决多语言场景中的视觉-文本错位问题,并展示了现有MLLMs在多语言任务中的改进空间。第三,Single Image Unlearning提出了一种单图像遗忘方法,通过微调
2025-05-09 08:41:41
1456
原创 多模态大语言模型arxiv论文略读(六十六)
➡️ 研究动机:为了缓解MLLMs中的幻觉问题,现有的方法主要采用基于人类反馈的强化学习(RLHF)方法,通过收集人类/AI的偏好并将其整合到MLLMs的优化过程中。实验设计了不同的攻击方法和条件,如图像嵌入攻击和文本边界框攻击,以及不同的目标类型(如独占目标和置换目标),以全面评估模型在对抗性攻击下的表现。➡️ 研究动机:为了更深入地研究动态、开放世界和结构化情境中的常识推理,研究团队构建了一个新的基准(SOK-Bench),旨在评估模型在视频中利用情境知识和一般知识进行推理的能力。
2025-05-09 08:39:05
1106
原创 多模态大语言模型arxiv论文略读(六十五)
本文旨在通过回顾LLMs和MLLMs的发展背景、结构特点、训练和评估方法,以及总结其在临床实践中的应用、挑战和潜在解决方案,为医疗领域的研究人员和从业人员提供全面的指导。➡️ 实验设计:本文并未进行具体的实验设计,而是通过文献综述和案例分析,系统地总结了医疗LLMs和MLLMs的构建和评估方法,包括数据集的选择、微调方法和评估策略。➡️ 研究动机:为了提高PI-RADS评分模型的准确性,研究团队提出了一种新的方法,通过适应多模态大型语言模型(MLLM)来整合PICG,无需额外的注释和网络参数。
2025-05-08 08:48:09
696
原创 多模态大语言模型arxiv论文略读(六十四)
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种多模态任务中表现出色,但当前的评估研究主要集中在模型在单一模态(视觉)任务中的理解和推理能力,忽略了在复杂多模态推理任务中(结合视觉和文本上下文)的关键性能评估。➡️ 方法简介:研究团队提出了一个系统的方法,通过构建MM-INSTRUCTEVAL框架,评估31个模型(包括23个MLLMs)在16个数据集上的表现,涵盖了6种不同的多模态推理任务。实验设计了10种不同的指令,以评估模型在不同指令下的表现,从而揭示模型架构、指令格式和任务性能之间的关系。
2025-05-08 08:46:30
681
原创 Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
针对多模态大语言模型(MLLM)扩展过程中计算成本高、模态支持有限的问题,本文提出基于混合专家(MoE)架构的统一多模态大语言模型Uni-MoE。通过引入特定模态编码器与连接器,模型实现了文本、图像、音频、视频等多种模态的统一表征,并在密集型语言模型中嵌入稀疏MoE架构,仅需激活部分参数即可完成高效训练与推理。跨模态对齐(通过多模态数据训练连接器)、模态专家训练(利用交叉模态数据优化专家网络)和联合调优(基于混合多模态指令数据微调整体模型)。
2025-05-07 10:00:40
1069
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人