mllm_arxiv
文章平均质量分 91
分享“多模态大语言模型”主题的arxiv论文
胖头汤姆
公众号:【胖头汤姆】,持续更新硬核算法内容
AI从业者,负责过多模态大模型、超大规模分类、聚类、检索等任务;发表过10+ CCF A/B等论文
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多模态大语言模型arxiv论文略读(157)
因此,研究团队提出了一种新的无词汇表SLT框架——多模态手语翻译(MMSLT),利用现成的多模态大语言模型(MLLMs)来生成手语组件的详细文本描述,并通过多模态语言预训练模块将这些描述与手语视频特征融合,对齐到口语句子空间。为了解决这一问题,研究团队提出了一种基于用户视角的指令调优方法(Egocentric Instruction Tuning),旨在通过一致的标注标准,使MLLMs的方向理解能力与用户的视角对齐,从而提高模型在实际应用中的表现。这导致了在回答涉及图像细节的问题时,MLLMs的表现不佳。原创 2025-07-15 08:44:09 · 980 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(156)
➡️ 方法简介:研究团队基于不同的预训练开源多模态大语言模型(MLLMs),如Qwen-VL、InternVL、Deepseek-VL,使用监督微调(SFT)、检索增强生成(RAG)和基于人类反馈的强化学习(RLHF)技术,将跨域知识注入MLLMs,从而构建多个小麦育种多模态大语言模型(WBLMs)。同时,小麦育种涉及生物学、遗传学、气象学和土壤科学等多个学科的交叉,专业人员在进行育种工作时需要跨越多个领域的文献和数据,甚至需要编写代码来访问数据,这极大地限制了他们的工作效率。原创 2025-07-10 18:12:14 · 972 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(155)
➡️ 实验设计:研究团队构建了一个新的CVIT基准测试,不仅评估模型在标准任务上的准确性和遗忘情况,还评估了模型在未见过的任务上的泛化能力和处理多样化指令的能力。特别是在视觉-语言任务中,缺乏高质量的长链推理数据和优化的训练管道,限制了模型在复杂多模态任务中的推理能力。➡️ 研究动机:为了克服现有MLLMs中的“弱视”问题,研究团队提出了一种新的框架——Panther,该框架通过将用户指令转化为视觉提示,指导视觉编码器提取与指令相关的视觉特征,从而提高模型对用户指令的响应能力和对目标对象的精确定位能力。原创 2025-07-10 18:09:32 · 925 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(154)
➡️ 研究动机:为了提高MLLMs在自动驾驶VQA任务中的表现,研究团队提出了“提示的暗示”(Hints of Prompt, HoP)框架,通过引入三种增强提示(Affinity hint、Semantic hint、Question hint)来丰富视觉表示,增强模型对复杂驾驶场景的理解和响应能力。➡️ 研究动机:为了提高多模态网络代理在未见过的网站和领域中的适应能力,研究团队提出了一种新的框架——AdaptAgent,该框架通过少量的人类演示(1-2个示例)来快速适应新的环境。原创 2025-07-09 08:39:52 · 913 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(153)
当前的方法,如链式思维(Chain of Thought, CoT)推理,虽然增强了大型语言模型(LLMs)的推理能力,但在多模态场景中应用时,由于视觉输入的误导,幻觉问题变得更加严重。为了克服这一问题,研究团队提出了一种新的方法——视觉推理链(Visual Inference Chain, VIC),该方法在引入视觉输入之前,先通过文本上下文构建推理链,从而减少跨模态偏差,提高多模态推理的准确性。实验设计了不同的配置,包括不同的LoRA秩和激活方法,以全面评估模型的性能和适应性。原创 2025-07-09 08:37:52 · 578 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(152)
➡️ 研究动机:为了评估生成模型和MLLMs在情感分析方面的能力,研究团队引入了MEMO-Bench,这是一个全面的基准测试,包含7,145张由12个文本到图像(T2I)模型生成的肖像图像,每张图像代表六种不同情感之一。当前方法虽然尝试利用多模态大语言模型(MLLMs)的长序列理解和推理能力,但缺乏全面的数据支持,这些方法往往改变了MLLMs的核心特征传输路径,破坏了模型的内在知识,限制了其在RSICC中的潜力。实验结果表明,现有的T2I模型在生成积极情感方面表现较好,但在生成消极情感方面存在局限。原创 2025-07-08 10:10:16 · 725 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(151)
然而,MLLM在特定下游任务上的表现通常较差,因为小规模的微调数据集无法覆盖预训练数据集的分布和任务范围,导致模型在微调过程中可能出现灾难性遗忘,即忘记预训练阶段学到的知识。➡️ 方法简介:研究团队提出了一种名为SPIDER的方法,通过测量预训练和微调分布中的参数重要性,选择性地更新对下游任务重要的参数,同时保留对泛化能力重要的参数。为了克服移动设备上的部署挑战,研究团队提出了BlueLM-V-3B,通过算法和系统协同设计,优化了模型在移动设备上的性能和资源效率。然而,这种方法可能导致模型失去泛化能力。原创 2025-07-07 09:20:17 · 1070 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(150)
具体来说,SFT依赖于教师强制(teacher forcing),即模型基于先前的真实标记进行预测,而在推理阶段,模型必须基于自身先前的输出进行预测,这导致了训练和推理之间的分布偏移。实验结果表明,MPO方法显著提升了模型的多模态推理能力,尤其是在MathVista基准上,InternVL2-8B-MPO模型的准确率达到了67.0%,比基线模型InternVL2-8B提高了8.7个百分点,性能接近10倍大的InternVL2-76B模型。实验结果表明,HDPO在减少幻觉方面表现出色,超越了大多数现有方法。原创 2025-07-07 09:13:20 · 1025 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(149)
最终,训练好的Spider模型生成了一个新的伪X-to-Xs数据集,这是首个X-to-Xs多模态数据集,为未来的多模态生成任务提供了丰富的数据支持。➡️ 研究动机:为了克服WTAL方法中的不完整定位和过度定位问题,研究团队提出了一种新的学习范式MLLM4WTAL,该范式利用多模态大语言模型(MLLMs)来提供时间动作的关键语义和完整的语义先验,以增强传统的WTAL方法。此外,研究团队还进行了详细的模型分析,包括消融实验和案例研究,以阐明模型的内部机制和实际应用中的表现。原创 2025-07-06 11:45:47 · 1010 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(148)
然而,支持数据的使用存在固有的局限性,如依赖于支持图像和关键点注释,导致模型性能受支持数据质量的影响。➡️ 方法简介:研究团队提出了一种新的方法——多模态知识一致性微调(Multimodal Knowledge Consistency Fine-tuning),该方法通过三个阶段的微调任务来提高模型在认知和感知任务之间的一致性。为了克服这一挑战,研究团队提出了一种新的方法——Zer0-Jack,该方法利用零阶优化技术直接生成恶意图像输入,以攻击黑盒MLLMs,显著降低了内存使用量,并提高了攻击成功率。原创 2025-07-02 09:21:37 · 777 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(147)
➡️ 方法简介:研究团队首先概述了MLLMs的架构和视觉-文本融合机制,分析了视觉处理中的漏洞,包括OCR组件的利用、跨模态训练的弱点以及集成点作为攻击表面。本文旨在全面回顾视觉路径在MLLMs中的利用方式,分析不同类型的视觉攻击,评估其对模型性能和安全的影响,并探讨当前的防御机制及其局限性,以支持更安全可靠的多模态AI系统的开发。实验设计了不同的因素(如视频帧的选择、文本元数据的使用)和不同类型的伤害类别(如信息伤害、仇恨与骚扰伤害等),以全面评估GPT-4-Turbo在多模态和多标签分类任务中的表现。原创 2025-07-01 08:47:05 · 946 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(146)
实验结果表明,即使在通用基准测试中表现良好的模型,在MME-Finance上的表现也不尽如人意,尤其是在与金融相关的任务上,如K线图和技术指标图的处理。MME-Finance旨在评估多模态模型在金融领域的感知、推理和认知能力,通过构建反映用户实际使用需求的图表、根据金融领域查询偏好创建问题,并由具有10年以上金融行业经验的专家进行标注,确保了基准测试的质量和专业性。实验结果表明,无论是在小型、中型还是大型模型中,集成该框架后,模型的性能都有显著提升,特别是在需要外部常识知识的VQA任务中。原创 2025-07-01 08:44:46 · 1075 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(145)
视觉编码器从查询图像和支持图像中提取特征;研究团队设计了KptLLM,一个统一的多模态模型,采用“识别-检测”策略,有效解决了语义关键点理解的三个任务:关键点语义理解、基于视觉提示的关键点检测和基于文本提示的关键点检测。然而,现有的模型在关键点的语义理解方面仍显不足,主要依赖于视觉模式的直接学习,而忽视了关键点的语义理解,导致提示的误读和预测的不准确。➡️ 研究动机:现有的VL跟踪器在主流基准测试中表现不佳,主要因为它们依赖于人工注释的文本,这些文本通常包含模糊的语言描述,并且忽视了文本中嵌入的语义信息。原创 2025-06-30 08:54:48 · 895 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(144)
实验评估了LARP在不同分词数量配置下的生成质量,并与现有的视频生成模型进行了比较。➡️ 研究动机:为了克服现有视频分词方法的局限性,研究团队提出了LARP(Learned AutoRegressive Prior),这是一种新的视频分词器,旨在通过引入全局分词方案和学习的AR生成先验模型,提高视频生成的质量和效率。然而,现有的MLLMs在图像编码过程中忽略了文本提示的要求,导致提取的视觉特征可能遗漏提示中指定的信息,同时包含大量与提示无关的噪声,影响了文本生成的质量和计算开销。原创 2025-06-30 08:51:56 · 719 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(143)
➡️ 问题背景:生成式大型语言模型(LLMs)展示了令人印象深刻的能力,通过整合预训练的视觉模型,可以进一步增强这些模型的能力,形成多模态大型语言模型(MLLMs)。然而,现有的方法在扩展到新模态时,依赖于大量的模态特定预训练和联合模态调优,导致显著的计算负担。这限制了MLLMs在新模态上的持续扩展能力。➡️ 研究动机:为了克服现有方法在扩展到新模态时的计算负担,研究团队提出了一种灵活且可扩展的框架PathWeave,该框架通过模态路径切换和扩展能力,使MLLMs能够持续进化,实现X-模态推理。原创 2025-06-29 20:55:23 · 678 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(142)
➡️ 研究动机:为了提高MLLMs在图表理解任务中的表现,研究团队提出了一种新的数据合成方法——Code-as-Intermediary Translation (CIT),通过代码作为中介,将图表图像转换为文本表示,从而利用大型语言模型(LLMs)的能力生成高质量的图表相关问题和答案。实验结果表明,TP-Eval能够显著提高模型在多种任务上的性能,揭示了现有评估基准中提示设计的不足,并为未来的多模态模型评估提供了新的思路。然而,现有的多模态模型评估基准存在一个关键问题,即对提示(prompt)的敏感性。原创 2025-06-27 09:04:03 · 687 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(141)
此外,RAG方法有效减少了模型的幻觉问题,提高了生成内容的准确性。➡️ 研究动机:为了克服现有MLLMs的计算成本高和领域适应性差的问题,研究团队提出了一种轻量级的多模态模型Mini-InternVL,该模型在参数量大幅减少的情况下,仍能保持较高的性能。➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中展现了卓越的性能,但其庞大的模型规模和高昂的计算成本限制了在消费级GPU或边缘设备上的训练和部署,阻碍了其广泛应用。原创 2025-06-27 09:01:46 · 1340 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(140)
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Model, MLLM)在视觉语言任务中展现出显著的能力,但现有的通用视觉语言模型(VLM)在医疗视觉问答(Med-VQA)任务中表现不佳,尤其是在处理细微的医学图像时。为了在保持高数据质量的同时最大化数据量,研究团队提出了自适应图像-文本质量增强器(AITQE),旨在动态评估和增强图像-文本对的质量,从而在不显著改变文本分布的情况下,最小化调整文本,以保留数据量并提高质量。原创 2025-06-26 08:53:27 · 1123 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(139)
➡️ 实验设计:研究团队在三个流行的MLLMs上应用了γ-MoD,并在9个基准数据集上进行了广泛的实验。实验结果表明,即使是性能最好的模型(如Claude-3.5 Sonnet、GPT-4o和Gemini-1.5 Pro)在POLYMATH上的得分也仅为41%、36%和27%左右,突显了这些模型在逻辑和视觉复杂问题上的挑战。➡️ 问题背景:当前的多模态基础模型在视觉-语言理解方面取得了显著进展,但多模态大语言模型(MLLMs)在视觉内容生成方面的能力仍面临挑战,尤其是在处理不同任务所需的多粒度特征时。原创 2025-06-26 08:52:24 · 1069 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(138)
尽管文本基础的LLMs缺乏直接的视觉输入,但它们能够有效地处理网页的文本表示,通过读取清理后的可访问性树(一种结构化和精炼的网页HTML和元数据表示),生成有意义的指令,这些指令能够捕捉页面上的内容和交互。(3)从抓取的网站中提取任务;➡️ 研究动机:为了评估MLLMs在多图像实例级任务中的能力,研究团队提出了一种新的视觉定位任务——多上下文视觉定位(Multi-Context Visual Grounding),并构建了一个新的基准数据集MC-Bench,以评估MLLMs在多图像场景中的视觉定位能力。原创 2025-06-25 08:50:17 · 1049 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(137)
因此,研究团队设计了VidEgoThink,一个全面的以自我为中心的视频理解基准,旨在评估MLLMs在具身AI中的应用能力,特别是视频问答、层次规划、视觉定位和奖励建模四个关键任务。UI定位模块负责识别目标UI元素的坐标;➡️ 问题背景:当前的图形用户界面(GUI)自动化任务中,单轮代理(Single-turn Agent)在执行用户指定的UI环境中的动作时,如点击图标或在文本框中输入文字,表现出了中等的准确性。然而,现有的基准测试主要关注感知能力,而忽视了认知能力的评估,尤其是在文本丰富的视觉场景中。原创 2025-06-25 08:48:16 · 618 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(136)
然而,现有的投影器(projector)在将视觉特征转换为语言模型的嵌入空间时,往往忽略了视觉特征的固有空间差异,导致模型在处理视觉任务时的效率和理解能力受限。实验设计了不同的因素(如数据集大小、字符间距)的变化,以及不同类型的输入信息(如医生的专业、患者的年龄和性别、医生最常开具的15种药物),以全面评估模型的性能。➡️ 研究动机:为了更有效地测量MLLMs的幻觉水平,研究团队提出了LongHalQA,这是一个无需大语言模型(LLM)的幻觉评估基准,包含6000个长且复杂的幻觉文本。原创 2025-06-24 08:59:57 · 902 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(135)
本研究探讨了多模态大型语言模型(MLLMs)在推理过程中的计算冗余,并提出了不同的方法来跳过计算,如跳过整个块、前馈网络(FFN)或自注意力(SA)层,以及并行化某些层,如FFN和SA层。该框架包括冻结的LLM、可训练的映射模块(C)和冻结的感知编码器(EM),用于处理不同模态的输入。➡️ 研究动机:为了提高AEB系统在开放场景中的适应性,研究团队提出了Dual-AEB系统,该系统结合了先进的多模态大语言模型(MLLM)以实现对驾驶环境的深入理解,并结合传统的基于规则的快速AEB模块以确保快速响应时间。原创 2025-06-24 08:57:50 · 962 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(134)
➡️ 研究动机:为了克服MLLMs在个性化对话中的局限,研究团队提出了个性化视觉指令调优(Personalized Visual Instruction Tuning, PVIT),旨在使MLLMs能够在无需额外训练的情况下,与任意个体进行个性化对话。为了克服这些局限,研究团队开发了TRANS4D,旨在通过多模态大型语言模型(MLLMs)进行物理感知的场景描述和有效的转换时间规划,以及通过几何感知的4D转换网络实现复杂的场景级4D转换。最后,通过令牌路由机制简化保留的令牌,去除内部冗余。原创 2025-06-23 15:28:41 · 828 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(133)
评估指标包括准确性、完成度和动作效率。实验设计了不同因素(如图像分辨率、压缩的token数量)的变化,以及不同类型的感知任务(如粗粒度感知、细粒度感知和推理任务),以全面评估连接器在不同条件下的表现。为了提高MLLMs的情境安全意识,研究团队还提出了多代理情境推理管道,通过将任务分解为不同的子任务,由不同的代理执行,以提高每个子任务的准确性。通过统一的分类标准,将来自MMBench、MME和SEED-Bench三个基准测试的子任务分为粗粒度感知、细粒度感知和推理任务,并评估了不同连接器在这些任务中的性能。原创 2025-06-23 15:26:27 · 819 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(132)
研究团队通过评估MLLMs在不同伪造特征上的区分能力,旨在揭示这些模型的“优势”和“劣势”,并提出一种新的框架来增强MLLMs的检测和解释能力。➡️ 研究动机:为了改善Mamba模型在多模态任务中的视觉特征提取能力,研究团队提出了EMMA(Empowering Multi-modal Mamba with Structural and Hierarchical Alignment),通过结构化和层次化对齐来增强视觉特征的提取,从而提高视觉和文本模态之间的对齐质量。原创 2025-06-22 11:29:29 · 1408 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(131)
然而,现有的数学基准测试主要集中在评估MLLMs的问题解决能力,而忽略了更复杂的场景,如错误检测,这在教育场景中尤为重要。➡️ 研究动机:为了克服这一限制,研究团队提出了一种新的方法——MLLM As ReTriever (MART),通过利用交互数据来微调MLLM检索器,使其能够全面考虑轨迹的有效性,并优先考虑对未见过的任务有用的轨迹。➡️ 方法简介:研究团队构建了一个包含2,500个高质量多模态K-12数学问题的数据集,这些问题来源于教育机构的真实学生互动数据,并经过严格的标注和丰富的元数据支持。原创 2025-06-20 08:52:39 · 694 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(130)
然而,这些模型主要依赖于自回归学习目标,这导致了视觉和语言模态之间的弱对齐,使得模型高度依赖于大规模的预训练数据集,这在医疗领域尤为困难,因为高质量的指令跟随数据集的构建既昂贵又耗时。➡️ 研究动机:现有的对抗攻击方法虽然能够生成视觉上逼真的对抗样本,但往往导致显著的语义变化,降低了攻击的隐蔽性。为了克服这些限制,研究团队提出了一种新的框架——语义一致的无限制对抗攻击(SCA),该框架利用有效的逆向方法和强大的多模态大语言模型(MLLM)生成对抗样本,这些样本在保持图像整体语义的同时,具有最小的语义失真。原创 2025-06-20 08:50:56 · 627 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(129)
此外,LEOPARD引入了一个自适应高分辨率多图像编码模块,该模块根据输入图像的原始宽高比和分辨率,动态优化视觉序列长度的分配,并通过像素洗牌技术无损压缩长视觉特征序列,以适应模型的最大序列长度限制。研究还讨论了模型的可解释性、公平性和伦理问题,以及未来研究的方向,如数据集开发、模态对齐方法的改进和伦理指南的建立。研究团队通过构建一个详细的分类树和收集训练集,旨在全面评估这些模型在ASCII艺术识别任务上的表现,揭示模型在处理模态无关视觉信息时的局限性,并探索通过监督微调等方法提升模型性能的可能性。原创 2025-06-19 08:54:25 · 968 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(128)
➡️ 研究动机:为了克服这些挑战,研究团队提出了一种新的解决方案LECCR(Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval),该方案利用多模态大语言模型(MLLM)生成详细的视觉描述,并将其聚合为多视图语义槽,以增强视觉特征的语义信息,从而缩小模态间的语义差距。➡️ 研究动机:为了提升MLLMs在处理文本丰富的图像理解、细粒度的视觉指代和定位、以及多图像推理等方面的能力,研究团队开发了MM1.5,这是一个新的MLLM家族。原创 2025-06-19 08:52:36 · 817 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(127)
因此,本研究旨在通过“调查的调查”(survey of surveys)来综合现有文献的关键见解,并将其组织成11个核心领域:通用、评估、安全、偏见、代理、应用、检索增强生成(RAG)、图、数据、持续学习和高效学习。➡️ 研究动机:为了克服CLIP模型在信息编码上的局限性,研究团队提出了一种新的方法——Diversified Multiplet Upcycling (DMU),通过将多个CLIP模型集成到一个混合专家(MoE)架构中,以捕捉多样化的、互补的信息,从而提高模型的性能和效率。原创 2025-06-18 08:45:15 · 555 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(126)
➡️ 实验设计:研究团队将Align2LLaVA应用于158K合成指令数据集,生成了一个压缩后的数据集Align2LLaVA-Instruct,该数据集包含30%的原始问题和30%的剩余答案,仅为原数据集的9%。此外,研究团队还提出了新的评估指标,以全面评估当前流行的多模态大语言模型(MLLMs)在第一人称视频理解中的表现。多模态大型语言模型(MLLMs)和大型视觉模型(VLMs)的出现,为解决这些问题提供了新的可能,它们能够处理和分析来自多种来源的数据,提供更全面的环境理解。原创 2025-06-18 08:43:11 · 710 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(125)
➡️ 实验设计:研究团队将Align2LLaVA应用于158K合成指令数据集,生成了一个压缩后的数据集Align2LLaVA-Instruct,该数据集包含30%的原始问题和30%的剩余答案,仅为原数据集的9%。此外,研究团队还提出了新的评估指标,以全面评估当前流行的多模态大语言模型(MLLMs)在第一人称视频理解中的表现。多模态大型语言模型(MLLMs)和大型视觉模型(VLMs)的出现,为解决这些问题提供了新的可能,它们能够处理和分析来自多种来源的数据,提供更全面的环境理解。原创 2025-06-16 09:01:23 · 739 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(124)
实验结果表明,M2PT在多个基准测试中表现出色,尤其是在零样本设置下,仅微调了0.09%的参数,性能接近全量微调的LLaVA模型。实验设计了不同的因素(如点的颜色、大小、透明度等),以及不同类型的测试数据(如真实用户绘制的不规则掩码),以全面评估EAGLE在处理不规则区域注释时的有效性和鲁棒性。➡️ 研究动机:为了深入理解医疗MLLMs的故障模式,并探索其背后的原因,研究团队开发了MediConfusion,这是一个具有挑战性的医疗视觉问答(VQA)基准数据集,旨在从视觉角度探测医疗MLLMs的故障模式。原创 2025-06-16 08:59:18 · 860 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(123)
➡️ 研究动机:尽管视觉提示方法在增强MLLMs的视觉能力方面取得了成功,但一些研究表明,MLLMs可能会与视觉提示不一致,这主要是由于预训练阶段缺乏多样化的视觉提示数据。➡️ 研究动机:现有的评估方法,如视觉问答(VQA),虽然能够可靠地检查模型的特定视觉能力,但通常通过多项选择题的形式进行,这使得模型更容易选择答案而非生成答案。为了克服这些局限,研究团队提出了一种新的框架CVR-LLM,通过将图像转换为详细的上下文感知描述,并利用LLMs的文本知识进行准确预测,从而提高模型在复杂视觉推理任务中的表现。原创 2025-06-15 16:31:53 · 960 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(122)
➡️ 实验设计:实验在VIMA和SimplerEnv两个模拟器上进行,针对LLaRA和OpenVLA两个开源VLAMs模型,设计了不同类型的物理攻击(如模糊、高斯噪声、亮度控制、基于排版的视觉提示和对抗性补丁攻击),并评估了这些攻击对模型性能的影响。➡️ 方法简介:研究团队提出了一种系统的方法,通过构建物理脆弱性评估管道(PVEP),评估了包括分布外(OOD)、基于排版的视觉提示(VP)和对抗性补丁(AdvP)攻击在内的多种物理视觉威胁对VLAMs的影响。这些步骤确保了数据集的质量和相关性。原创 2025-06-15 16:28:38 · 1106 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(121)
➡️ 研究动机:研究团队提出,通过在MLLMs的输入中添加明确的安全要求,可以增强模型的安全意识。进一步,研究团队探索了一种称为宪法校准(Constitutional Calibration, CoCA)的技术,旨在通过校准模型的输出分布来放大安全提示的影响,使模型能够恢复其原有的安全意识,同时不损失其原有的视觉理解和推理能力。➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的框架,通过微调大型语言模型(LLMs)并整合直接用户反馈,使模型能够更好地理解时尚兼容性和当前趋势,同时保持解释性。原创 2025-06-13 08:49:02 · 1141 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(120)
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建语义地图(Semantic Map)和候选路径点地图(Candidate Waypoints Map),结合大型语言模型(LLM)和多模态大型模型(VLM)的推理能力,实现多楼层导航。➡️ 研究动机:为了解决MLLMs在自动驾驶系统中部署的计算和内存挑战,研究团队提出了一种新的方法——视频token稀疏化(Video Token Sparsification, VTS),通过利用连续视频帧中的冗余信息,减少视觉token的数量,同时保留最关键的信息。原创 2025-06-13 08:46:52 · 730 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(119)
➡️ 研究动机:为了定义和评估MLLMs在低级视觉感知和理解任务中的自我意识能力,研究团队提出了QL-Bench基准测试,通过构建LLSAVisionQA数据集来模拟人类对低级视觉的反应,探讨MLLMs在低级视觉感知中的自我意识。研究发现,MLLMs中的图像令牌存在明显的冗余,这不仅增加了计算负担,还影响了模型的效率。➡️ 问题背景:多模态大语言模型(MLLMs)在视觉感知和理解方面展现了显著的能力,但这些模型也存在幻觉问题,这限制了它们作为AI系统的可靠性,尤其是在涉及低级视觉感知和理解的任务中。原创 2025-06-12 08:57:35 · 1305 阅读 · 0 评论 -
多模态大语言模型arxiv论文略读(118)
➡️ 论文作者:King Zhu, Qianbo Zang, Shian Jia, Siwei Wu, Feiteng Fang, Yizhi Li, Shawn Gavin, Tuney Zheng, Jiawei Guo, Bo Li, Haoning Wu, Xingwei Qu, Jian Yang, Zachary Liu, Xiang Yue, J. H. Liu, Chenghua Lin, Min Yang, Shiwen Ni, Wenhao Huang, Ge Zhang。原创 2025-06-12 08:51:25 · 1024 阅读 · 0 评论
分享