Multimodal
文章平均质量分 77
主要是跟踪多模态大模型的相关文章,作简要介绍和归纳整理。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion
扩散模型难以突破训练分辨率的限制:直接高分辨率采样速度慢、成本高,而事后图像超分辨率(ISR)在解码后执行,会引入伪影并增加额外延迟。本文提出潜在超分适配器(LUA),这是一个轻量级模块,在最终 VAE 解码步骤前,直接对生成器的潜在代码执行超分辨率。LUA 可作为即插即用组件集成,无需修改基础模型或增加额外扩散阶段,通过潜在空间中的单次前馈传递实现高分辨率合成。原创 2025-11-24 09:30:00 · 133 阅读 · 0 评论 -
An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
现有多模态模型存在局限性:纯自回归(AR)模型生成速度慢、图像质量差;AR-扩散混合模型破坏模型统一性;部分离散扩散模型性能有限且缺乏下游任务支持。研究目标是构建一个开源、高效、统一的多模态模型,同时支持文本到图像生成、图像到图像编辑、图像理解等多种任务,推进通用多模态智能研究。本文提出 Lumina-DiMOO,一款用于无缝多模态生成与理解的开源基础模型。与以往的统一模型不同,Lumina-DiMOO 采用全离散扩散建模来处理不同模态的输入与输出。原创 2025-11-17 08:30:00 · 178 阅读 · 0 评论 -
SPATIAL FORCING: IMPLICIT SPATIAL REPRESENTATION ALIGNMENT FOR VISION-LANGUAGE-ACTION MODEL
现有VLA模型局限:多数VLA基于仅在2D数据上预训练的视觉语言模型(VLM)构建,缺乏精准3D空间感知,难以适应物理世界操作。现有解决方案缺陷直接引入深度图、点云等3D传感器输入:受传感器噪声、硬件异质性、数据集深度信息缺失影响,通用性差。从2D图像估计3D信息:性能受限于深度估计器的精度,效果欠佳。视觉-语言-动作(VLA)模型近年来在使机器人遵循语言指令并执行精准动作方面展现出巨大潜力。原创 2025-10-25 09:30:00 · 166 阅读 · 0 评论 -
DIFFUSION TRANSFORMERS WITH REPRESENTATION AUTOENCODERS
现有问题:当前DiT依赖传统VAE构建潜在空间,存在三大局限——卷积骨干架构过时且复杂、潜在空间维度低导致信息容量不足、纯重建导向训练使表征能力弱,最终限制生成质量。核心方案:提出表征自编码器(RAE),用预训练表征编码器(如DINO、SigLIP、MAE)作为冻结编码器,搭配轻量级训练解码器,构建语义丰富且高维度的潜在空间。关键优化:针对RAE高维潜在空间适配DiT的难题,提出三项关键技术:让DiT宽度匹配RAE的token维度,确保模型能拟合高维数据;原创 2025-10-24 09:30:00 · 116 阅读 · 0 评论 -
LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language
多模态大型语言模型(MLLMs)在通用视觉基准任务上已取得优异性能,但在医学成像等专业领域的分布外(OOD)任务中表现欠佳,这些领域的标注数据稀缺且获取成本高昂。本文提出LEAML——一种标签高效的适应框架,该框架同时利用稀缺的标注视觉问答(VQA)样本和丰富的无标注图像。我们的方法通过基于描述蒸馏正则化的问答(QA)生成器,为无标注数据生成领域相关的伪问答对。重要的是,我们仅选择性地更新与问答生成最相关的神经元,使QA生成器能在蒸馏过程中高效获取领域特定知识。原创 2025-10-24 08:30:00 · 148 阅读 · 0 评论 -
THINKING WITH CAMERA: A UNIFIED MULTIMODAL MODEL FOR CAMERA-CENTRIC UNDERSTANDING AND GENERATION
相机中心的理解与生成是空间智能的两大支柱,但它们通常被孤立研究。本文提出Puffin——一种统一的相机中心多模态模型,可沿相机维度扩展空间感知能力。Puffin整合语言回归与基于扩散的生成技术,实现从任意视角对场景的解释与创建。为桥接相机与视觉-语言的模态鸿沟,本文引入一种新范式:将相机视为“语言”,支持“以相机思维思考(Thinking with Camera)”。该范式引导模型将空间接地视觉线索与摄影术语对齐,同时跨几何上下文进行推理。原创 2025-10-20 09:30:00 · 172 阅读 · 0 评论 -
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
技术瓶颈:扩散模型虽在图像和视频生成领域实现突破(如Sora、Hunyuan-DiT等),但依赖Transformer架构导致计算成本极高,多数模型仅能生成5-10秒的短视频;现有自回归长视频生成方法(如CausVid、Self-Forcing)存在“训练-推理不匹配”问题——训练时依赖短视距双向教师模型(5秒内),推理时需生成更长视频,导致误差累积、画面过曝或质量骤降。关键挑战:一是“时间 mismatch”,训练仅覆盖5秒短片段,推理需生成超10秒长视频;原创 2025-10-18 09:30:00 · 162 阅读 · 0 评论 -
Qwen3-Omni Technical Report
Qwen3-Omni是一款单模态多任务模型,在文本、图像、音频和视频等多模态任务上均实现了顶尖性能,且相较于单模态模型未出现性能衰减。我们提出Qwen3-Omni,这是一款单模态多任务模型。该模型首次实现了在文本、图像、音频和视频任务上均保持顶尖性能,且相较于单模态模型未出现任何性能衰减。在Qwen系列中,Qwen3-Omni与同规模单模态模型的性能相当,尤其在音频任务上表现卓越。原创 2025-10-17 08:30:00 · 170 阅读 · 0 评论 -
Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities
大型语言模型(LLMs)在医学影像任务中的应用日益广泛,涵盖影像解读与合成影像生成。然而,这些模型常产生“幻觉”——即自信却错误的输出,可能误导临床决策。本研究从两个方向考察“幻觉”问题:一是“图像到文本”方向,即LLM根据X光、CT或MRI扫描生成报告;二是“文本到图像”方向,即模型根据临床提示生成医学影像。研究分析事实矛盾、解剖不准确等错误,并基于专家制定的标准,跨影像模态评估模型输出。结果表明,在解读性与生成性任务中,“幻觉”存在共性模式,这对临床可信度具有重要意义。原创 2025-10-10 09:37:17 · 165 阅读 · 0 评论 -
Large Language Model Evaluated Stand-alone Attention-Assisted Graph Neural Network with Spatial
结直肠息肉的精准内镜图像分割对于早期结直肠癌检测至关重要。然而,由于息肉与周围黏膜对比度低、存在镜面高光以及边界模糊等问题,该任务仍面临巨大挑战。原创 2025-10-10 09:34:26 · 276 阅读 · 0 评论 -
BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Mode
主流多模态大型语言模型(MLLMs)通过视觉投影仪连接预训练视觉编码器与大型语言模型(LLMs),从而实现视觉理解。视觉与文本模态间的固有差异,使得视觉投影仪生成的嵌入对视觉理解至关重要。然而,现有对齐方法将视觉嵌入仅视为上下文线索,仅对文本输出施加自回归监督,忽视了引入等效直接视觉监督的必要性,这限制了视觉嵌入的精细化对齐潜力。本文在分析LLM浅层视觉嵌入精炼过程的基础上,提出BASIC方法——利用LLM内部的精炼视觉嵌入作为监督信号,直接引导投影仪生成初始视觉嵌入。原创 2025-10-03 09:30:00 · 183 阅读 · 0 评论 -
MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary
多模态大型语言模型(MLLMs)通过整合语言与视觉线索解决问题,是推动人工通用智能(AGI)发展的关键。然而,当前衡量MLLMs智能水平的基准存在规模有限、覆盖范围狭窄、知识结构松散等问题,仅能提供静态且无差异化的评估。为填补这一空白,我们提出MDK12-Bench——一个基于真实K-12考试数据构建的大规模多学科基准,涵盖6个学科、141K个实例,并将6225个知识点组织成6层分类体系。该基准包含5种题型,标注了难度等级与考试年份,可从4个维度全面评估MLLMs的表现:1)难度等级;原创 2025-10-02 09:30:00 · 149 阅读 · 0 评论 -
SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal LLM
说话人日志与识别(SDR)任务旨在预测音频片段中“谁在何时说了什么”,该任务在会议转录、对话系统等各类现实多说话人场景中至关重要。现有SDR系统通常采用级联框架,整合说话人日志(SD)与自动语音识别(ASR)等多个模块。然而,这类级联系统存在诸多局限,如误差传播、难以处理重叠语音,以及无法通过联合优化挖掘SD与ASR任务间的协同性。为解决这些问题,本文提出SpeakerLM——一种用于SDR的统一多模态大型语言模型,能够以端到端的方式联合执行SD与ASR任务。原创 2025-09-28 08:30:00 · 203 阅读 · 2 评论 -
Aligning Effective Tokens with Video Anomaly in Large Language Models
理解视频中的异常事件是一项至关重要且极具挑战性的任务,在众多应用领域中受到了广泛关注。尽管当前用于视频理解的多模态大语言模型(MLLMs)能够分析通用视频,但由于异常事件在空间和时间上具有稀疏性,且冗余信息往往会导致结果欠佳,这些模型在处理异常事件时常常面临困难。为解决这些挑战,借助视觉语言模型(VLMs)和大语言模型(LLMs)的表征与泛化能力,我们提出了 VA - GPT——一种新型多模态大语言模型,专门用于总结和定位各类视频中的异常事件。原创 2025-09-26 08:30:00 · 192 阅读 · 0 评论 -
VLA-ADAPTER: AN EFFECTIVE PARADIGM FOR TINY-SCALE VISION-LANGUAGE-ACTION MODEL
视觉-语言-动作(VLA)模型通常通过在机器人数据上预训练大规模视觉-语言模型(VLM)来连接感知与动作空间,虽能提升性能但伴随高昂的训练成本。现有VLA模型存在依赖大规模VLM、微调速度慢、GPU内存消耗高、推理效率低等瓶颈,核心问题聚焦于如何更高效地搭建视觉-语言表征(VL)到动作(A)的桥梁。视觉-语言-动作(VLA)模型通常通过在机器人数据上预训练大规模视觉-语言模型(VLM)来连接感知与动作空间。这种方法虽能显著提升性能,但也带来了高昂的训练成本。原创 2025-09-23 08:30:00 · 197 阅读 · 0 评论 -
Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal
该研究聚焦于机器人交互中的“可用性接地”(Affordance Grounding)问题,即预测物体上与机器人待执行动作相关的特定区域,这一问题在人机交互、具身操作等领域至关重要。现有模型因缺乏“思维链”(Chain-of-Thought, CoT)推理能力,常忽视不同物体间共享的可用性,导致域外(OOD)泛化能力和显式推理能力受限。为解决上述挑战,研究提出。原创 2025-09-20 09:30:00 · 164 阅读 · 0 评论 -
SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models
在多模态大型语言模型(MLLMs)飞速发展的背景下,其输出的安全问题已引起广泛关注。尽管目前已提出众多数据集,但随着多模态大型语言模型的不断进步,这些数据集可能会逐渐过时,并且还容易受到数据污染问题的影响。为解决这些问题,我们提出了SDEval,这是首个用于多模态大型语言模型安全动态评估的框架,能够可控地调整安全基准的分布与复杂度。具体而言,SDEval主要采用文本动态、图像动态和文本-图像动态三种动态策略,从原始基准中生成新样本。原创 2025-09-18 08:30:00 · 183 阅读 · 0 评论 -
Self-Rewarding Vision-Language Model via Reasoning Decomposition
视觉-语言模型(VLMs)普遍存在两大关键问题:一是视觉幻觉,即生成图像中不存在的内容;二是语言捷径依赖,即跳过视觉理解,仅依靠文本先验知识回答问题。现有VLMs后训练方法多依赖简单的可验证答案匹配,仅监督最终输出,缺乏对中间视觉推理过程的明确指导,导致模型接收的视觉信号稀疏,优先选择基于语言的推理而非视觉感知。部分方法虽通过人类标注或外部大模型蒸馏标签补充视觉监督,但存在人力成本高、标注难扩展,且外部信号无法适应模型动态更新、易引发奖励攻击等局限。Vision-SR1是一种基于强化学习的自奖励框架,无需外原创 2025-09-12 08:30:00 · 164 阅读 · 0 评论 -
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
InternVL3.5 是上海AI实验室 InternVL 团队推出的新一代开源多模态模型家族,聚焦提升模型的通用性、推理能力与推理效率,在多模态任务中表现突出,且大幅缩小了与商业模型(如GPT-5)的性能差距。我们提出 InternVL3.5——一个全新的开源多模态模型家族,它在 InternVL 系列的基础上,显著提升了模型的通用性、推理能力与推理效率。其中一项核心创新是级联强化学习(Cascade RL)框架。原创 2025-09-11 09:30:00 · 181 阅读 · 0 评论 -
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
本文针对视觉语言模型(VLMs)中视觉令牌数量激增导致的效率问题,提出了一种名为的新范式。研究发现,大多数通用视觉问答(VQA)任务仅需1/4分辨率的图像即可保持性能,而OCR相关等精细任务则依赖高分辨率输入。动态分辨率调整:先处理低分辨率图像,若信息不足则输出特殊令牌请求高分辨率图像。强化学习优化:采用LLM-as-Judge策略解决通用VQA的评估难题,并扩展多轮GRPO算法适应多轮交互。奖励机制设计:结合准确率奖励、格式奖励和惩罚控制,稳定图像缩放请求比例,避免模型坍缩。原创 2025-09-07 09:30:00 · 226 阅读 · 0 评论 -
Qwen-Image Technical Report
我们提出Qwen-Image,这是Qwen系列中的一款图像生成基础模型,在复杂文本渲染和精确图像编辑方面取得了显著进展。为解决复杂文本渲染的挑战,我们设计了一套全面的数据处理流程,包括大规模数据收集、过滤、标注、合成与平衡。此外,我们采用渐进式训练策略:从非文本到文本渲染起步,从简单文本输入逐步过渡到复杂文本,最终扩展至段落级描述。这种课程学习方法大幅提升了模型的原生文本渲染能力。因此,Qwen-Image不仅在英语等拼音语言上表现优异,在中文等更具挑战性的表意文字上也取得了显著突破。原创 2025-09-07 08:30:00 · 414 阅读 · 0 评论 -
SCREENCODER: ADVANCING VISUAL-TO-CODE GENERATION FOR FRONT-END AUTOMATION VIA MODULAR MULTIMODAL AGE
本文提出了一个名为的模块化多智能体框架,旨在解决将用户界面(UI)设计自动转换为前端代码(HTML/CSS)的问题。** grounding阶段**:利用视觉-语言模型(VLM)检测并标记UI组件(如侧边栏、页眉、导航栏等);** planning阶段**:结合前端工程知识构建层级布局树,明确组件的空间关系和结构;** generation阶段**:通过自适应提示合成生成HTML/CSS代码,并支持用户自然语言指令的交互设计。原创 2025-09-06 08:30:00 · 151 阅读 · 0 评论 -
INTERN-S1: A SCIENTIFIC MULTIMODAL FOUNDATION MODEL
近年来,大量开源基础模型涌现,在多个广受关注的领域取得显著进展,性能已十分接近闭源模型。然而,在高价值但更具挑战性的科学专业领域,要么仍依赖专家模型,要么通用基础模型的进展与热门领域相比显著滞后,远不足以推动科学研究变革,且开源模型与闭源模型在这些科学领域仍存在巨大差距。为缩小这一差距并向通用人工智能(AGI)进一步探索,我们提出Intern-S1——这是一款兼具通用理解与推理能力的专业型通用模型,能够分析多种科学模态数据。原创 2025-09-04 08:30:00 · 184 阅读 · 0 评论 -
HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels
研究背景与问题:从文本或图像创建沉浸式、可交互的3D世界是计算机视觉与图形学的核心挑战。现有方法分为两类:基于视频的方法虽多样性丰富,但缺乏3D一致性且渲染效率低;基于3D的方法虽几何一致,但受限于训练数据少和表示方式内存低效。解决方案:提出HunyuanWorld 1.0框架,融合两类方法优势,实现从文本和图像生成沉浸式、可探索、交互式3D场景,核心是语义分层的3D网格表示,利用全景图作为360°世界代理进行语义感知的世界分解与重建。核心技术。原创 2025-09-01 09:30:00 · 137 阅读 · 0 评论 -
NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale
本文介绍了NextStep-1,这是一款用于文本到图像生成的自回归模型,旨在推动自回归范式在图像生成领域的发展。该模型由140亿参数的Transformer骨干网络、1.57亿参数的流匹配头(flow matching head)和图像令牌器(image tokenizer)组成,通过统一离散文本令牌和连续图像令牌为单一序列,以“下一个令牌预测”为目标进行训练。原创 2025-08-28 09:30:00 · 141 阅读 · 0 评论 -
WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent
本文介绍了WebWatcher,这是一种具备增强视觉-语言推理能力的多模态深度研究代理(multimodal Deep Research Agent),旨在解决现有Web代理多以文本为中心、忽视视觉信息的局限性。研究背景:现有深度研究代理(如Deep Research)虽在文本信息检索上表现出色,但多为文本中心,难以处理需整合视觉信息的任务(如解析科学图表、分析图形等)。多模态深度研究需更强的感知、逻辑、知识推理能力及更复杂的工具使用能力,目前相关研究较少。核心方法WebWatcher设计。原创 2025-08-28 08:30:00 · 156 阅读 · 0 评论 -
LLM-based Realistic Safety-Critical Driving Video Generation
本文提出了一种基于大语言模型(LLMs)的框架,用于生成逼真的安全关键驾驶场景视频,以支持自动驾驶系统的测试与评估。研究背景:安全关键驾驶场景(如突发行人横穿、车辆突然切入等)对自动驾驶系统的可靠性至关重要,但这类场景在现实中罕见,难以通过传统路测充分验证。LLMs在代码生成和视频合成领域的进展为解决这一问题提供了可能。核心方法场景生成:利用LLMs的少样本代码生成能力,在CARLA模拟器中自动生成安全关键场景脚本(特别是碰撞场景),通过Scenic语言精确控制交通参与者的位置、行为和事件触发时机。原创 2025-08-25 11:02:45 · 160 阅读 · 0 评论 -
Corvid : Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning
本文提出了一种增强链式思维(Chain-of-Thought, CoT)推理能力的多模态大语言模型(MLLM)——Corvid,旨在解决现有MLLMs在复杂结构化推理中的局限性。核心挑战:现有MLLMs存在三大问题:高质量多模态CoT数据短缺、视觉表征与跨模态对齐不足、推理时易出现过度推理或推理不足。模型架构采用混合视觉编码器(整合SigLIP ViT和ConvNeXt-XXL),增强视觉信息提取;设计新型连接器GateMixer,通过门控机制和选择性注意促进跨模态交互与对齐。数据集与训练。原创 2025-08-24 09:30:00 · 196 阅读 · 0 评论 -
Robust Multimodal Large Language Models Against Modality Conflict
本文聚焦多模态大语言模型(MLLMs)在视觉-语言任务中因模态冲突模态冲突的定义:指视觉输入与文本输入在信息上存在不一致,具体分为三类——物体冲突(文本提及的物体不在图像中)、属性冲突(文本与图像对同一物体的属性描述不一致)、关系冲突(文本与图像对同一物体间关系的描述不一致)。数据集构建:构建了Multimodal Modality Conflict(MMMC)数据集,包含20K个图像-问题-答案三元组,用于模拟上述三种模态冲突场景。缓解方法:提出三种缓解模态冲突导致幻觉的方法——原创 2025-08-22 08:30:00 · 157 阅读 · 0 评论 -
WEIGHTED MULTI-PROMPT LEARNING WITH DESCRIPTION-FREE LARGE LANGUAGE MODEL DISTILLATION
近年来,预训练视觉语言模型(VLM)通过提示学习在下游任务中展现出良好的适应性,且无需额外标注的图像-文本配对数据。为补充VLM中与视觉数据关联训练的文本信息,已有研究提出利用大型语言模型(LLM)增强提示,以提升对未见过的多样化数据的鲁棒性。现有方法通常从LLM中提取基于文本的响应(即描述)并融入提示,但这种方式存在高变异性和低可靠性问题。本文提出无描述多提示学习(DeMul),一种跳过描述提取步骤、直接将LLM知识蒸馏到提示中的新方法。原创 2025-08-23 08:30:00 · 42 阅读 · 0 评论 -
Mirror in the Model: Ad Banner Image Generation via Reflective Multi-LLM and Multi-modal Agents
本文提出了一种名为的广告横幅图像自动生成框架,旨在解决现有生成模型在商业设计任务中存在的结构化布局、精确排版、品牌一致性等不足。MIMO-Core:一种分层多模态多代理系统,通过“生成-评估-修订”的迭代循环,模拟人类设计团队分工(内容创作、质量评估、定向优化),动态改进视觉元素;MIMO-Loop:高层协调层,通过启动多个MIMO-Core实例探索不同风格方向,结合多代理投票协议筛选劣质设计并共享信息,提升整体设计质量。原创 2025-08-11 09:45:00 · 54 阅读 · 0 评论 -
MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal
大型语言模型(LLMs)的快速发展改变了多个领域,尤其是计算机科学(CS)教育。这些模型在代码相关任务和问题解决中展现出显著能力,引发了关于它们在高级计算机科学场景中潜力与局限性的疑问。本研究提出了一个新颖的双语(英语-罗马尼亚语)、多模态(文本和图像)选择题数据集,该数据集源自高级计算机科学竞赛。我们数据集的一个特点是,问题的设计使得部分问题更易于通过纸笔推理解决,而另一些则通过编写代码更高效。我们在该数据集上系统评估了最先进的LLMs,分析了它们在理论编程任务上的表现。原创 2025-08-05 14:30:00 · 47 阅读 · 0 评论 -
Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation
本文聚焦多模态大型语言模型(MLLMs)在数据有限场景下对专业视觉任务(如图表、表格、收据、报告等)的适应问题。研究发现,思维链(CoT)数据能促进模型适应,但从预训练MLLMs蒸馏出的CoT数据存在中间推理步骤的事实错误。为此,作者提出方法,通过注入边界框等接地信息,使推理步骤更忠实于输入图像,并采用自举(bootstrapping)策略迭代生成和优化接地信息(通过自验证过滤错误)。原创 2025-08-05 10:30:00 · 47 阅读 · 0 评论 -
Scaling RL to Long Videos
本文介绍了一个全栈框架LongVILA-R1,旨在通过强化学习(RL)将视觉语言模型(VLMs)的推理能力扩展到长视频领域。大型数据集LongVideo-Reason:包含52K个长视频问答(QA)对,带有高质量推理标注,覆盖体育、游戏、博客等多个领域。两阶段训练 pipeline:通过思维链有监督微调(CoT-SFT)扩展VLMs,再结合强化学习(RL)提升推理能力。长视频RL训练基础设施Multi-modal Reinforcement Sequence Parallelism(MR-SP)原创 2025-07-31 14:39:39 · 118 阅读 · 0 评论 -
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
范式转变:传统多模态推理依赖文本思维链(CoT),将视觉视为静态输入;新范式则将视觉作为动态认知工作空间,通过中间视觉步骤实现推理,更接近人类认知模式。三阶段框架阶段1:工具驱动的视觉探索:模型调用预设工具(如目标检测、OCR)主动分析图像,代表方法包括基于提示(如MM-REACT)、监督微调(如LLaVA-Plus)和强化学习(如Chain-of-Focus)。阶段2:程序化视觉操作:模型生成代码(如Python)自定义视觉操作,实现灵活的复合任务,代表方法包括VisProg、ViperGPT等。原创 2025-07-14 09:30:00 · 187 阅读 · 0 评论 -
Token Activation Map to Visually Explain Multimodal LLMs
本文聚焦多模态大型语言模型(MLLMs)的可解释性问题,提出了一种名为令牌激活图(Token Activation Map, TAM)的新方法。与传统视觉模型(如CNN、ViT)仅生成单一输出不同,MLLMs会逐步生成多个令牌(tokens),且每个令牌的生成依赖于前文上下文,这导致上下文令牌会对后续令牌的解释产生冗余激活干扰,而现有方法往往忽略这一问题。为解决该问题,TAM引入了估计因果推理方法,以减轻上下文干扰,同时提出秩高斯滤波器减少激活噪声。原创 2025-07-12 09:30:00 · 206 阅读 · 0 评论 -
From Individuals to Interactions: Benchmarking Gender Bias in Multimodal Large Language Models
多模态大型语言模型(MLLMs)在涉及视觉和文本模态的任务中展现出令人印象深刻的能力。然而,人们对其潜在的性别偏见编码与放大风险的担忧持续存在,尤其是在社会敏感应用中。现有基准主要评估孤立场景中的偏见,却忽视了偏见可能通过人际互动微妙显现的情况。本文填补了这一空白:不再局限于单一实体评估,而是深入考察双个体互动中的关系型和情境性性别偏见。我们提出GENRES,这一新颖基准旨在通过生成叙事中的社会关系视角评估MLLMs的性别偏见。原创 2025-07-13 08:30:00 · 138 阅读 · 0 评论 -
Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
本文聚焦于提升3D多模态大语言模型(3D MLLMs)在点云感知中的空间推理能力,针对现有方法在处理复杂指令时的不足,提出了相关推理分割(Relevant Reasoning Segmentation, R²S)框架和3D ReasonSeg数据集。研究背景:现有3D MLLMs虽能通过视觉-语言对齐实现3D点云感知,但在处理需精确空间推理的复杂指令时仍存在挑战,且现有数据集难以支撑复杂推理任务的训练与评估。原创 2025-07-10 08:30:00 · 171 阅读 · 0 评论 -
Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables
研究背景与目标:化学表格包含符号表达、结构化变量和分子图形等多模态信息,现有基准未充分关注此类复杂性,限制了多模态大语言模型(MLLMs)在化学科学理解中的应用。为此,研究团队构建了ChemTable基准,旨在评估MLLMs在化学表格识别与理解任务上的表现。ChemTable数据集特点数据规模:从化学文献实验部分筛选超1300个真实表格,覆盖反应条件优化、底物筛选等6种类型。注释细节:包含单元格多边形、逻辑布局、领域标签(试剂、产率等)及分子图形注释。任务设计表格识别。原创 2025-07-02 09:42:49 · 163 阅读 · 0 评论 -
SEAR: A Multimodal Dataset for Analyzing AR-LLM-Driven Social Engineering Behaviors
SEAR(Social Engineering via AR-LLM)是一个多模态数据集,旨在研究增强现实(AR)与多模态大语言模型(LLM)驱动的社会工程(SE)攻击威胁。该数据集包含60名参与者在模拟会议、课堂等场景中的180段标注对话,整合了AR捕捉的视听线索(如面部表情、语调)、环境上下文、社交媒体资料,以及信任评分、易感性评估等主观指标。核心发现显示,SEAR攻击的合规率极高:93.3%的参与者点击钓鱼链接,85%接听诈骗电话,76.7%在互动后信任度显著提升。原创 2025-07-07 08:30:00 · 171 阅读 · 0 评论
分享