多模态大模型研究每日简报【2025-08-19】

部署运行你感兴趣的模型镜像

训练数据相关

  • TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection (https://arxiv.org/abs/2503.24115): 针对电信诈骗检测缺乏高质量多模态训练数据的问题,提出了TeleAntiFraud-28k数据集,该数据集包含经过隐私保护处理的语音-文本对,并利用LLM进行语义增强和多智能体对抗合成,从而模拟新兴的诈骗手段。该数据集可用于欺诈场景分类、欺诈检测和欺诈类型分类等任务,并提供基准评估工具和数据处理框架。
  • Learn 3D VQA Better with Active Selection and Reannotation (https://arxiv.org/abs/2507.04630): 针对3D视觉问答(VQA)中由于不恰当的标注导致模型训练效果不佳的问题,提出了一种多轮交互式主动学习策略。该策略基于模型的语义不确定性选择数据,并主动请求重新标注,从而更有效地解决误导性标签问题,降低训练成本。

训练策略

  • Preserve and Sculpt: Manifold-Aligned Fine-tuning of Vision-Language Models for Few-Shot Learning (https://arxiv.org/abs/2508.12877): 提出了一种新的微调方法MPS-Tuning,该方法通过对齐特征的Gram矩阵来显式约束特征空间中数据分布的内在几何结构,同时进一步雕刻流形以增强类可分性,从而提升了VLM在少样本学习中的性能。
  • Cross-Domain Few-Shot Learning via Multi-View Collaborative Optimization with Vision-Language Models (https://arxiv.org/abs/2508.12861): 提出了一种名为CoMuCo的VLM微调策略,用于解决跨域少样本学习问题。该策略利用两个功能互补的专家模块提取多视角特征,并通过结合先验知识的约束和信息几何的共识机制来增强特征学习的鲁棒性。
  • Learning to Steer: Input-dependent Steering for Multimodal LLMs (https://arxiv.org/abs/2508.12815): 提出了一种细粒度的steering方法L2S,该方法使用输入特定的线性移位来引导多模态LLM,减少幻觉并增强安全性。通过训练一个小型的辅助模块来预测输入特定的steering向量,L2S优于其他静态基线。
  • Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models (https://arxiv.org/abs/2404.10357): 提出了一种名为CoKnow的框架,通过丰富的上下文知识来增强VLM的提示学习。CoKnow训练轻量级的语义知识映射器,生成输入图像的多知识表示,从而提升了VLM在下游任务中的性能。

大模型的行业应用

  • InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis (https://arxiv.org/abs/2507.14899): 提出了一种基于大型多模态模型(LMM)的InsightX Agent框架,用于可靠、可解释和交互式的X射线无损检测(NDT)分析。该框架利用LMM作为中央协调器,结合Sparse Deformable Multi-Scale Detector(SDMSD)和Evidence-Grounded Reflection(EGR)工具,提高了诊断可靠性和解释性,并集成了多种信息来源。
  • A Language-Signal-Vision Multimodal Framework for Multitask Cardiac Analysis (https://arxiv.org/abs/2508.13072): 提出了一个统一的框架TGMM,用于多任务心脏分析,该框架集成了实验室测试结果、心电图和超声心动图等多种模态的数据。TGMM包含MedFlexFusion模块、文本指导模块和响应模块,能够动态整合来自不同心脏来源的数据,并根据不同的临床目标生成任务相关的表示。
  • Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation (https://arxiv.org/abs/2508.13068): 提出了一个两阶段多模态框架,利用眼动追踪信号增强胸部X光片的疾病分类和区域感知放射学报告生成。该框架结合了视觉特征、临床标签、边界框和放射科医生的眼动追踪信号,并通过一个新颖的多项凝视注意损失函数来提高分类性能和生成医学报告的可解释性。
  • HeteroRAG: A Heterogeneous Retrieval-Augmented Generation Framework for Medical Vision Language Tasks (https://arxiv.org/abs/2508.12778): 构建了MedAtlas,包含广泛的多模态报告知识库和多样的文本语料库,并在此基础上提出了HeteroRAG框架,通过异构知识源增强医学视觉语言模型(Med-LVLM)。该框架引入了模态特定的CLIP来有效检索报告,并引入了多语料库查询生成器来动态构建针对不同语料库的查询,从而显著提高Med-LVLM的事实准确性和可靠性。
  • Creative4U: MLLMs-based Advertising Creative Image Selector with Comparative Reasoning (https://arxiv.org/abs/2508.12628): 提出了第一个用于可解释创意评估和选择的范例,将创意图像的评估和选择整合到自然语言生成任务中。该研究构建了CreativePair数据集,并引入了Creative4U,一个基于MLLM的创意选择器,能够准确评估和选择创意图像。
  • From Intent to Execution: Multimodal Chain-of-Thought Reinforcement Learning for Precise CAD Code Generation (https://arxiv.org/abs/2508.10118): 提出了CAD-RL框架,该框架结合了基于CoT的冷启动与目标驱动的强化学习,利用可执行性奖励、几何精度奖励和外部评估奖励来改进CAD建模代码的生成。该研究还发布了ExeCAD数据集,包含16540个真实CAD示例。

文生图/文生视频

  • Precise Action-to-Video Generation Through Visual Action Prompts (https://arxiv.org/abs/2508.13104): 提出了一种新的动作表示方法:视觉动作提示(visual action prompts),用于生成复杂、高自由度的动作视频,同时保持跨域的可迁移性。通过将动作“渲染”成精确的视觉提示(例如,视觉骨架),平衡了动作精度和动态可迁移性。
  • Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models (https://arxiv.org/abs/2508.12945): 提出了Lumen,一个端到端的视频relighting框架,它基于大规模视频生成模型,接收灵活的文本描述来控制光照和背景。Lumen构建了一个包含真实和合成视频的大规模数据集,并设计了一个联合训练课程,有效地利用了合成视频中的物理一致性和真实视频中的广义领域分布。
  • 7Bench: a Comprehensive Benchmark for Layout-guided Text-to-image Models (https://arxiv.org/abs/2508.12919): 提出了7Bench,第一个评估布局引导的文本到图像生成中语义和空间对齐的基准。该基准包含文本和布局对,涵盖七种具有挑战性的场景,并提出了一个结合布局对齐分数的评估协议,以评估空间准确性。
  • Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score (https://arxiv.org/abs/2508.12718): 提出了一种名为Dual Contrastive Denoising Score的框架,用于单参考图像的文本引导编辑。该框架利用文本到图像扩散模型的生成先验,并引入了双对比损失,实现了灵活的内容修改和结构保持,无需额外的网络训练。
  • NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale (https://arxiv.org/abs/2508.10711): 提出了NextStep-1,一个140亿参数的自回归模型,配对一个1.57亿参数的flow matching head,在离散文本tokens和连续图像tokens上进行训练。NextStep-1在文本到图像生成任务中实现了最先进的自回归模型性能,展示了在高保真图像合成方面的强大能力。
  • PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation (https://arxiv.org/abs/2503.06684): 为了解决现有 ControlNet-like 方法在多条件文本到图像生成中存在的结构扭曲和伪影问题,提出了 PixelPonder 框架。该框架采用动态patch-level自适应条件选择机制,在子区域级别优先考虑空间相关的控制信号,并利用 time-aware 控制注入方案,根据去噪时间步调整条件影响,从而实现更和谐的图像生成。

机器人

  • Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy (https://arxiv.org/abs/2508.13103): 提出了Observation-Centric VLA (OC-VLA)框架,该框架将动作预测直接置于相机观察空间中,从而减轻了视觉-语言-动作(VLA)模型泛化到真实环境时遇到的挑战。OC-VLA利用相机的外参矩阵将末端执行器的姿势从机器人基坐标系转换到相机坐标系,从而统一了异构视点的预测目标,提高了模型对相机视点变化的鲁棒性。
  • Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey (https://arxiv.org/abs/2508.13073): 对基于大型VLM的VLA模型在机器人操作中的应用进行了综述,定义了大型VLM-based VLA模型,并阐述了两种主要的架构范式:单体模型和分层模型。该综述还深入探讨了大型VLM-based VLA模型与高级领域的集成、独特特征的综合以及有前景的方向。
  • RoboRetriever: Single-Camera Robot Object Retrieval via Active and Interactive Perception with Dynamic Scene Graph (https://arxiv.org/abs/2508.12916): 提出了RoboRetriever框架,用于在真实环境中仅使用单个腕戴式RGB-D相机和自然语言指令进行物体检索。RoboRetriever构建并更新一个动态分层场景图,并利用视觉提示方案来确定与语义任务目标和几何场景上下文对齐的相机姿势。
  • Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation (https://arxiv.org/abs/2503.21969): 提出了一种长时程操作的方法,该方法使用 LLM 直接在闭环框架中生成可执行代码计划,利用思维链(CoT)引导的few-shot学习和增量结构化示例来生成鲁棒且通用的任务计划。 此外,reporter 使用 RGB-D 数据评估结果并提供结构化反馈,从而能够从错位中恢复并在部分可观察性下进行重新规划。
  • Towards Multimodal Social Conversations with Robots: Using Vision-Language Models (https://arxiv.org/abs/2507.19196): 探讨了如何利用视觉语言模型(VLM)使社交机器人能够进行多模态社交对话,概述了多模态系统的总体需求,并讨论了如何将VLM应用于此设置,以及仍然存在的技术挑战。

模型评估与分析

  • Has GPT-5 Achieved Spatial Intelligence? An Empirical Study (https://arxiv.org/abs/2508.13142): 对GPT-5的空间智能进行了实证研究,提出了一个全面的空间任务分类法,并对最先进的专有和开源模型在八个关键基准上进行了评估。研究发现,GPT-5在空间智能方面表现出前所未有的优势,但仍未达到人类水平,并且专有模型在面对最困难的问题时并没有明显的优势。
  • Drifting Away from Truth: GenAI-Driven News Diversity Challenges LVLM-Based Misinformation Detection (https://arxiv.org/abs/2508.12711): 研究表明,GenAI驱动的新闻多样性给基于LVLM的多模态错误信息检测(MMD)带来了新的挑战,这种多样性会导致多层面的漂移,显著降低现有MMD系统的鲁棒性。
  • EGOILLUSION: Benchmarking Hallucinations in Egocentric Video Understanding (https://arxiv.org/abs/2508.12687): 提出了EgoIllusion,一个用于评估以自我为中心的视频理解中MLLM幻觉的基准。EgoIllusion包含1400个视频和8000个问题,旨在触发视觉和听觉提示中的幻觉,评估结果显示,包括GPT-4o和Gemini在内的强大模型也面临显著挑战。
  • Re:Verse – Can Your VLM Read a Manga? (https://arxiv.org/abs/2508.08508): 通过对漫画叙事理解的全面研究,揭示了当前的VLM在处理连续视觉叙事时,在表面识别和深度叙事推理之间存在差距。研究表明,尽管最近的大型多模态模型在单个面板解释方面表现出色,但在时间因果关系和跨面板连贯性方面存在系统性失败。
  • Evaluating Contrast Localizer for Identifying Causal Units in Social & Mathematical Tasks in Language Models (https://arxiv.org/abs/2508.08276): 将神经科学对比定位器应用于定位LLM和VLM中用于心理理论(ToM)和数学推理任务的因果相关单元。研究发现,与预期相反,低激活单元有时会比高激活单元产生更大的性能下降,并且来自数学定位器的单元通常比来自ToM定位器的单元更能损害ToM性能。
  • Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation (https://arxiv.org/abs/2506.12609): 为了缓解 LVLM 中视觉幻觉问题,提出了一种轻量级的 VisFlow 框架。该框架通过在推理过程中直接调节注意力模式来减轻幻觉,具体通过token-level 和 head-level 的双层注意力干预,增强对显著视觉区域的关注,同时减少对系统提示和相邻文本token的不当关注。

其他

  • Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation (https://arxiv.org/abs/2508.12680): 构建了一个全面的RL-ready视觉推理数据集,该数据集来自46个数据源,涵盖8个维度,如信息图表、数学、空间、跨图像、图形用户界面、医学、常识和一般科学。通过基于影响函数的数据选择和基于难度的数据过滤策略来识别高质量的训练样本,并使用多轮RL与数据课程来迭代提高视觉推理能力。
  • WP-CLIP: Leveraging CLIP to Predict Wölfflin’s Principles in Visual Art (https://arxiv.org/abs/2508.12668): 研究了CLIP是否能够理解和预测Wölfflin的艺术原则,结果表明CLIP并不固有地捕捉到这种细微的风格元素。通过在真实艺术图像的注释数据集上对CLIP进行微调,提出了WP-CLIP模型,该模型能够泛化到不同的艺术风格,并展示了VLM在自动艺术分析中的潜力。
  • Stable Diffusion-Based Approach for Human De-Occlusion (https://arxiv.org/abs/2508.12663): 提出了一种基于Stable Diffusion的人体去遮挡方法,该方法将任务分解为掩码完成和RGB完成两个阶段。通过利用基于扩散的人体先验、遮挡关节热图和人类特定的文本特征,该方法能够有效地重建被严重遮挡的人体外观。
  • Flexible Tool Selection through Low-dimensional Attribute Alignment of Vision and Language (https://arxiv.org/abs/2505.22146): 开发了一个框架,该框架使用低维属性表示来桥接视觉工具感知和语言任务理解。构建了一个包含115个常见工具的数据集ToolNet,并使用 ResNet 或 ViT 从工具图像中提取属性,使用 GPT-2、LLaMA 或 DeepSeek 从任务描述中派生所需属性,从而实现更高效的工具选择。
  • LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering (https://arxiv.org/abs/2507.14784): 提出了 LeAdQA,它通过因果感知查询细化与细粒度视觉定位相结合来弥合差距。该方法首先利用 LLM 重新制定问题-选项对,消除因果歧义并锐化时间焦点。然后,这些改进的查询指导时间定位模型精确检索最显着的片段,并通过自适应融合机制动态集成证据以最大限度地提高相关性。
  • SLGaussian: Fast Language Gaussian Splatting in Sparse Views (https://arxiv.org/abs/2412.08331): 针对3D语义场学习在稀疏视角条件下存在的挑战,提出了一种前馈方法SLGaussian,用于从稀疏视角构建3D语义场,允许直接推断基于3DGS的场景,并在稀疏视角条件下实现精确的3D场景理解。
  • CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly Supervised Text-based Person Retrieval (https://arxiv.org/abs/2401.10011): 为了解决弱监督文本的行人检索任务中存在的类内差异的问题,提出了一种交叉模态原型对比学习 (CPCL) 方法。该方法使用 CLIP 模型将视觉和文本实例映射到共享的潜在空间,并通过原型多模态记忆 (PMM) 模块捕获属于同一个人的图像-文本对的异构模态之间的关联。

编辑精选

  1. Has GPT-5 Achieved Spatial Intelligence? An Empirical Study (https://arxiv.org/abs/2508.13142):该论文对GPT-5的空间智能进行了全面评估,为理解当前多模态模型的能力边界提供了重要参考,并指出了未来研究的挑战性方向。

  2. HeteroRAG: A Heterogeneous Retrieval-Augmented Generation Framework for Medical Vision Language Tasks (https://arxiv.org/abs/2508.12778): 在医疗领域应用中,知识的准确性和可靠性至关重要。该论文提出的异构检索增强框架有效地提高了医学视觉语言模型的性能,对于推动医疗AI的实际应用具有重要意义。

  3. RoboRetriever: Single-Camera Robot Object Retrieval via Active and Interactive Perception with Dynamic Scene Graph (https://arxiv.org/abs/2508.12916):该论文提出的RoboRetriever框架,利用单个相机实现了在复杂环境中的物体检索,降低了硬件成本,并为机器人操作的实际应用提供了新的思路。

  4. Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation (https://arxiv.org/abs/2503.21969): 该论文提出的长时程操作的方法,LLM 直接在闭环框架中生成可执行代码计划,能够从错位中恢复并在部分可观察性下进行重新规划,为机器人长时间任务提供了解决方案。

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值