多模态大模型研究每日简报【2025-09-19】

最新推荐文章于 2025-12-18 11:52:33 发布

原创最新推荐文章于 2025-12-18 11:52:33 发布 · 681 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #机器学习 #论文阅读 #计算机视觉

多模态大模型日报专栏收录该内容

57 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

训练数据相关

Generalizable Geometric Image Caption Synthesis (https://arxiv.org/abs/2509.15217)
提出了一种通过强化学习生成几何图像标题的方法，使用可验证的奖励来优化数据生成管道，从而提高模型在几何问题解决中的泛化能力。
UnifiedVisual: A Framework for Constructing Unified Vision-Language Datasets (https://arxiv.org/abs/2509.14738)
介绍了一种新颖的数据集构建框架UnifiedVisual，并提出了UnifiedVisual-240K，一个高质量的数据集，旨在促进多模态理解和生成之间的相互增强。
MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks (https://arxiv.org/abs/2509.14638)
提出了MultiEdit，一个包含超过107K高质量图像编辑样本的综合数据集，涵盖6个具有挑战性的编辑任务，包括复杂的语义操作和风格迁移。
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data (https://arxiv.org/abs/2509.15221)
提出了一个大规模数据集，用于训练可以在多个操作系统上无缝运行的计算机使用代理（CUA）。该研究表明，数据驱动的扩展对于通用CUA至关重要，并在多个基准测试中取得了显著改进。

Agent相关

An Evaluation-Centric Paradigm for Scientific Visualization Agents (https://arxiv.org/abs/2509.15160)
论文探讨了科学可视化代理所需的各种评估类型，并强调了开发评估基准以促进该领域创新和未来发展的重要性。
Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue (https://arxiv.org/abs/2509.15061)
提出了一个名为“Ask-to-Clarify”的框架，用于解决具身智能体执行指令时的歧义问题。该框架通过多轮对话提问来明确指令，然后生成低级别的动作，从而实现更有效的协作。
Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale (https://arxiv.org/abs/2509.14932)
介绍了Robot Control Stack (RCS)，一个精简的生态系统，旨在支持大规模通用策略的机器人学习研究。它具有模块化和易于扩展的分层架构，为模拟和物理机器人提供统一的接口，从而促进了sim-to-real的迁移。
CollabVLA: Self-Reflective Vision-Language-Action Model Dreaming Together with Human (https://arxiv.org/abs/2509.14889)
提出了CollabVLA，一个自反思的视觉-语言-动作框架，将标准视觉运动策略转变为协作助手。通过在混合专家设计下集成基于VLM的反射推理和基于扩散的动作生成，解决了先前VLA的关键限制。
OpenLens AI: Fully Autonomous Research Agent for Health Infomatics (https://arxiv.org/abs/2509.14778)
提出了OpenLens AI，一个专为健康信息学量身定制的全自动框架。OpenLens AI集成了用于文献综述、数据分析、代码生成和稿件准备的专业代理，并通过视觉-语言反馈增强了医疗可视化和可重复性的质量控制。
RealMirror: A Comprehensive, Open-Source Vision-Language-Action Platform for Embodied AI (https://arxiv.org/abs/2509.14687)
提出了RealMirror，一个全面的开源具身AI VLA平台。RealMirror构建了一个高效、低成本的数据收集、模型训练和推理系统，无需真实机器人即可实现端到端的VLA研究。
Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech (https://arxiv.org/abs/2509.14627)
提出了一个类人的代理，该代理生成基于对话情绪和响应风格信息的语音响应。构建了一个新颖的多感官对话数据集，专注于语音，以使代理能够生成自然的语音。
模型预训练相关
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation (https://arxiv.org/abs/2509.15212)
介绍了RynnVLA-001，一个基于大规模人类演示视频生成预训练的视觉-语言-动作模型。该模型采用了一种新颖的两阶段预训练方法，并在机器人数据集上取得了优于现有技术的性能。
Towards Building Speech Large Language Models for Multitask Understanding in Low-Resource Languages (https://arxiv.org/abs/2509.14804)
为了克服低资源语言（如泰语）中语音大语言模型（SLLM）的局限性，提出了XLSR-Thai（第一个用于泰语的自监督学习（SSL）语音编码器）、U-Align（一种更资源高效且多任务有效的语音-文本对齐方法）和Thai-SUP（一个用于从高资源语言生成泰语口语理解数据的管道）。
V-SEAM: Visual Semantic Editing and Attention Modulating for Causal Interpretability of Vision-Language Models (https://arxiv.org/abs/2509.14837)
提出了V-SEAM，一个结合了视觉语义编辑和注意力调节的新框架，用于对VLM进行因果解释。V-SEAM支持概念级别的视觉操作，并识别对跨三个语义级别（对象、属性和关系）的预测具有正或负贡献的注意力头。

训练策略

Calibration-Aware Prompt Learning for Medical Vision-Language Models (https://arxiv.org/abs/2509.15226)
提出了CalibPrompt，一个在提示调整期间校准医学视觉语言模型（Med-VLM）的框架。CalibPrompt在标记数据稀缺的情况下，通过精心设计的校准目标优化一小组可学习的提示，从而提高Med-VLM的置信度校准。
Cross-Modal Knowledge Distillation for Speech Large Language Models (https://arxiv.org/abs/2509.14930)
提出了一种跨模态知识蒸馏框架，该框架利用文本到文本和语音到文本通道，将知识从基于文本的教师模型转移到语音LLM，从而解决语音大型语言模型中的灾难性遗忘和模态不等价问题。
Decoupled Proxy Alignment: Mitigating Language Prior Conflict for Multimodal Alignment in MLLM (https://arxiv.org/abs/2509.14735)
提出了一种名为解耦代理对齐（DPA）的新型训练方法，以解决多模态大型语言模型（MLLM）中的语言先验冲突问题。DPA引入了两个关键创新：在预训练期间使用代理LLM将视觉-语言对齐过程与语言先验干扰解耦，以及基于视觉相关性的动态损失调整，以加强视觉相关tokens的优化信号。

大模型的行业应用

EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence (https://arxiv.org/abs/2509.14977)
提出了EchoVLM，一个专为超声医学成像设计的视觉-语言模型。该模型采用在跨越七个解剖区域的数据上训练的混合专家（MoE）架构，使模型能够执行多项任务，包括超声报告生成、诊断和视觉问答（VQA）。
Affordance-Based Disambiguation of Surgical Instructions for Collaborative Robot-Assisted Surgery (https://arxiv.org/abs/2509.14967)
提出了一个机器人手术助手框架，该框架通过将外科医生的口头指令与手术视野的视觉环境相结合来解释和消除口头指令的歧义。
ProtoMedX: Towards Explainable Multi-Modal Prototype Learning for Bone Health Classification (https://arxiv.org/abs/2509.14830)
提出了ProtoMedX，一个多模态模型，它使用腰椎的DEXA扫描和患者记录，在骨骼健康分类中展示了最先进的性能，同时提供了临床医生可以直观理解的解释。
From Pixels to Urban Policy-Intelligence: Recovering Legacy Effects of Redlining with a Multimodal LLM (https://arxiv.org/abs/2509.15132)
论文展示了多模态大型语言模型（MLLM）如何扩展城市测量能力并支持跟踪基于地点的政策干预。使用GPT-4o，通过分析街景图像推断社区贫困和树冠覆盖率，并评估了1930年代歧视性住房政策的遗留影响。
Radiology Report Conditional 3D CT Generation with Multi Encoder Latent diffusion Model (https://arxiv.org/abs/2509.14780)
提出了Report2CT，一种放射学报告条件潜在扩散框架，用于直接从自由文本放射学报告合成3D胸部CT体积，使用多个文本编码器整合发现和印象部分。
Evaluating the Effectiveness of Coverage-Guided Fuzzing for Testing Deep Learning Library APIs (https://arxiv.org/abs/2509.14626)
提出 FlashFuzz，一种利用大型语言模型 (LLM) 通过结合模板、辅助函数和 API 文档自动合成 API 级别 harness 的技术，已发现 PyTorch 和 TensorFlow 中 42 个以前未知的错误。

Benchmark

A Multi-To-One Interview Paradigm for Efficient MLLM Evaluation (https://arxiv.org/abs/2509.14886)
提出了一种多对一的访谈范式，用于高效的MLLM评估。实验表明，所提出的范式比随机抽样实现了更高的相关性，同时减少了所需的问题数量。
Frame Sampling Strategies Matter: A Benchmark for small vision language models (https://arxiv.org/abs/2509.14769)
提出了第一个针对视频问答的state-of-the-art小型VLM的帧精确基准，在受控帧采样策略下进行评估。
Spatial Audio Motion Understanding and Reasoning (https://arxiv.org/abs/2509.14666)
提出了一个空间音频运动理解和推理基准数据集，并展示了所提出的框架相对于基线模型的性能。

文生图/文生视频

Forecasting and Visualizing Air Quality from Sky Images with Vision-Language Models (https://arxiv.org/abs/2509.15076)
提出了一种AI驱动的代理，该代理可以通过天空图像预测环境空气污染水平，并使用生成模型合成污染情景的逼真可视化效果。
Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance (https://arxiv.org/abs/2509.14934)
在文本到音频的扩散模型中，通过探索反记忆策略来解决数据复制问题。采用反记忆指导（AMG），这是一种修改预训练扩散模型的采样过程以抑制记忆的技术。

底层模型架构

Lost in Translation? Vocabulary Alignment for Source-Free Domain Adaptation in Open-Vocabulary Semantic Segmentation (https://arxiv.org/abs/2509.15225)
介绍了一种新颖的无源域自适应框架VocAlign，专为开放词汇语义分割中的VLM设计。
Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding (https://arxiv.org/abs/2509.15178)
提出了一种基于MLLM的零样本STVG框架，其中包括新颖的分解时空高亮（DSTH）和时间增强组装（TAS）策略，以释放MLLM的推理能力。
QuizRank: Picking Images by Quizzing VLMs (https://arxiv.org/abs/2509.15059)
提出了一种新颖的图像选择方法QuizRank，该方法利用大型语言模型（LLM）和视觉语言模型（VLM）对图像进行排序，作为学习干预。
SPATIALGEN: Layout-guided 3D Indoor Scene Generation (https://arxiv.org/abs/2509.14981)
介绍了SpatialGen，一种新颖的多视图多模态扩散模型，可生成逼真且语义一致的3D室内场景。给定3D布局和参考图像（来自文本提示），我们的模型从任意视点合成外观（彩色图像）、几何（场景坐标图）和语义（语义分割图），同时保持跨模态的空间一致性。
DF-LLaVA: Unlocking MLLM’s potential for Synthetic Image Detection via Prompt-Guided Knowledge Injection (https://arxiv.org/abs/2509.14957)
提出了一种简单而有效的框架DF-LLaVA，它可以释放MLLM的内在判别潜力。我们的方法首先从MLLM中提取潜在知识，然后通过提示将其注入到训练中。
TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding (https://arxiv.org/abs/2509.14671)
提出了一种训练高效的框架TableDART，它通过重用预训练的单模态模型来集成多模态视图。TableDART引入了一个轻量级的2.59M参数MLP门控网络，该网络动态地为每个表格-查询对选择最佳路径（仅文本、仅图像或融合），从而有效地减少了来自两种模态的冗余和冲突。
MARIC: Multi-Agent Reasoning for Image Classification (https://arxiv.org/abs/2509.14860)
介绍了一种用于图像分类的多代理框架MARIC，该框架将图像分类重新定义为协作推理过程。MARIC首先利用Outliner Agent分析图像的全局主题并生成有针对性的提示。基于这些提示，三个Aspect Agents提取沿不同视觉维度的细粒度描述。最后，推理代理通过集成的反射步骤综合这些互补的输出，从而产生用于分类的统一表示。
Towards Embodiment Equivariant Vision-Language-Action Policy (https://arxiv.org/abs/2509.14630)
提出了一种框架，该框架 (i) 建立了动作空间和策略设计的实施等价性理论，(ii) 引入了一种强制实施配置等价性的动作解码器，以及 (iii) 结合了一种几何感知网络架构，以增强与实施无关的空间推理。
UMind: A Unified Multitask Network for Zero-Shot M/EEG Visual Decoding (https://arxiv.org/abs/2509.14772)
提出了一种用于零样本 M/EEG 视觉解码的统一多任务网络 (UMind)，包括视觉刺激检索、分类和重建，其中多项任务相互增强。

编辑精选

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data (https://arxiv.org/abs/2509.15221): 该论文发布了一个大型跨平台数据集，对于训练能够操作不同操作系统的智能体具有重要意义，解决了现有数据集规模不足的问题。
RealMirror: A Comprehensive, Open-Source Vision-Language-Action Platform for Embodied AI (https://arxiv.org/abs/2509.14687): 该论文提出了一个全面的开源具身AI VLA平台。RealMirror构建了一个高效、低成本的数据收集、模型训练和推理系统，无需真实机器人即可实现端到端的VLA研究。
Calibration-Aware Prompt Learning for Medical Vision-Language Models (https://arxiv.org/abs/2509.15226): 医学领域的模型校准至关重要，这篇论文提出了一个在prompt tuning期间校准医学视觉语言模型的框架，能够提升模型在临床应用中的可信度。
Evaluating the Effectiveness of Coverage-Guided Fuzzing for Testing Deep Learning Library APIs (https://arxiv.org/abs/2509.14626): 通过使用大语言模型自动构建fuzzing测试用例，该论文系统性研究了深度学习库的API安全性，并成功发现并修复了多个bug，对提升AI系统的可靠性有重要意义。