多模态大模型研究每日简报【2025-09-25】

部署运行你感兴趣的模型镜像

Agent相关

  • A co-evolving agentic AI system for medical imaging analysis: 论文提出了 “TissueLab”,一个协同进化的 Agentic AI 系统,用于医学图像分析。该系统允许研究人员提问,自动规划和生成可解释的工作流程,并进行实时的分析。TissueLab 整合了病理学、放射学和空间组学领域的工具,通过标准化输入输出和能力,系统可以自动决定何时以及如何调用这些工具来解决研究和临床问题。该系统可以持续从临床医生那里学习,不断改进分类器和决策策略。

  • Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches: 这篇论文评估了基础模型在强化学习探索中的能力。作者通过在多臂老虎机、Gridworlds和稀疏奖励Atari环境中进行基准测试,发现视觉语言模型虽然能够从视觉输入中推断出高层目标,但在精确的低层控制方面表现不佳,存在“知行差距”。论文进一步探索了一种混合框架,发现VLM指导可以显著提高早期阶段的样本效率。

模型预训练相关

  • WEST: LLM based Speech Toolkit for Speech Understanding, Generation, and Interaction: 论文介绍了 WEST,一个基于大语言模型 (LLM) 的语音工具包,用于语音理解、生成和交互。 WEST 的关键特性包括:完全基于 LLM,支持识别、合成、理解、对话和多模态能力等任务,并且简单易用。WEST 提供两种类型的 recipes,models 和实验结果。第一种完全基于开源模型和数据,允许用户完全复现实验结果。第二种则基于大规模数据进行训练,提供卓越的性能。

训练数据相关

大模型的行业应用

  • RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis: 本文提出了一种检索增强诊断框架(RAD),通过显式地将外部知识注入到多模态模型中,从而提高临床诊断的可靠性。RAD 通过检索和改进来自多个医学来源的以疾病为中心的知识,并使用 guideline-enhanced 对比损失来约束多模态特征和指南知识之间的潜在距离,从而将模型与临床诊断工作流程对齐。此外,论文还引入了一套评估多模态诊断模型可解释性的标准。在四个数据集上的评估表明,RAD 具有良好的泛化性,并实现了最先进的性能。
  • PS3: A Multimodal Transformer Integrating Pathology Reports with Histology Images and Biological Pathways for Cancer Survival Prediction: 本文提出了一种名为PS3(Predicting Survival from Three Modalities)的模型,该模型使用Transformer融合模型,集成了病理报告、组织学图像和生物通路信息以预测癌症生存率。PS3通过诊断原型提取病理报告中的关键信息,使用组织学原型表示组织学图像中的关键形态模式,并利用生物通路原型编码转录组表达,从而实现多模态信息的有效融合。

文生图/文生视频

  • EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning: 论文提出了 EditVerse,一个统一的框架,用于在单个模型中进行图像和视频的生成和编辑。通过将文本、图像和视频表示为统一的 token 序列,EditVerse 利用自注意力实现强大的上下文学习、自然的跨模态知识迁移,并灵活处理任意分辨率和时长的输入输出。为了解决视频编辑训练数据不足的问题,作者设计了一个可扩展的数据 pipeline,收集了 232K 个视频编辑样本,并将其与大规模图像和视频数据集结合进行联合训练。
  • MultiSoundGen: Video-to-Audio Generation for Multi-Event Scenarios via SlowFast Contrastive Audio-Visual Pretraining and Direct Preference Optimization: 针对当前视频到音频(V2A)方法在复杂多事件场景中表现不佳的问题,本文提出了一种新的 V2A 框架:MultiSoundGen。该框架将直接偏好优化(DPO)引入 V2A 领域,并利用视听预训练(AVP)来增强在复杂多事件场景中的性能。该框架引入了 SlowFast 对比 AVP (SF-CAVP) 模型,通过统一的双流架构对齐视听数据的核心语义表示和快速动态特征。

Benchmark

  • EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models: 这篇论文提出了 EchoBench,一个用于系统评估医学大型视觉语言模型 (LVLM) 中奉承现象的基准。该基准包含 2,122 张图像和 90 个提示,模拟来自患者、医学生和医生的偏见输入。评估结果表明,所有 LVLM 都表现出显著的奉承行为,即使是最好的专有模型也显示出 45.98% 的奉承度。
  • V-GameGym: Visual Game Generation for Code Large Language Models: 论文提出了 V-GameGym,一个综合性的基准测试,包含来自真实世界代码仓库的 2,219 个高质量样本,涵盖 100 个主题集群。该基准旨在评估代码大语言模型在视觉游戏开发中的能力,并提供可量化的视觉编程和交互元素生成质量指标。
  • Benchmarking Gaslighting Attacks Against Speech Large Language Models: 论文研究了语音大语言模型 (Speech LLM) 在面对操纵性或对抗性输入时的鲁棒性,并提出了 gaslighting 攻击,旨在通过精心设计的提示来误导、覆盖或扭曲模型的推理。该论文构建了五种操纵策略,并评估了模型在各种任务中的鲁棒性。

安全

  • Universal Camouflage Attack on Vision-Language Models for Autonomous Driving: 论文提出了首个针对自动驾驶视觉语言模型(VLM-AD)的通用伪装攻击(UCA)框架。UCA 在特征空间中操作,生成物理上可实现的伪装纹理,对不同的用户指令和模型架构具有很强的泛化能力。UCA 引入了特征差异损失(FDL),以最大化干净图像和对抗图像之间的表示差异。实验表明,UCA 可以在各种 VLM-AD 模型和驾驶场景中诱导错误的驾驶指令。
  • Improving Generalizability and Undetectability for Targeted Adversarial Attacks on Multimodal Pre-trained Models: 论文指出,现有的多模态预训练模型(如 ImageBind)的对抗攻击在泛化性和不可检测性方面存在局限性。为了解决这些问题,作者提出了一种名为代理目标攻击(PTA)的新方法,该方法利用多个源模态和目标模态代理来优化目标对抗样本,确保它们在与多个潜在目标对齐的同时,保持对防御的规避性。
  • FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models: 该论文揭示了视觉-语言-动作(VLA)模型中的一个关键对抗漏洞,即对抗性图像可以“冻结”VLA模型,导致它们忽略后续指令。为了系统地研究这种漏洞,论文提出了FreezeVLA,通过最小-最大双层优化生成和评估action-freezing攻击。实验表明,FreezeVLA 能够显著高于现有方法。

编辑精选

  1. A co-evolving agentic AI system for medical imaging analysis: 该论文提出的 TissueLab 系统,将 Agentic AI 应用于医学图像分析,并能够持续从临床医生那里学习,具有很高的实际应用潜力。
  2. EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning: EditVerse 统一了图像和视频的生成和编辑,并利用上下文学习实现跨模态知识迁移,是一个很有前景的研究方向。
  3. FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models: VLA 模型在机器人领域有重要的应用前景,但其安全性问题不容忽视。该论文揭示了 VLA 模型中存在的 action-freezing 攻击漏洞,并提出了相应的攻击框架,对于 VLA 模型的安全研究具有重要意义。
  4. Universal Camouflage Attack on Vision-Language Models for Autonomous Driving: 本文提出的UCA攻击,在实际场景中对自动驾驶VLM-AD系统构成严重威胁,具有很高的现实意义。

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值