随着ICCV 2025的召开,多模态大模型研究正从架构探索迈向深度应用创新,呈现三大趋势:
架构创新进入效率优先阶段。状态空间模型(如Mamba)凭借长序列处理优势,在视频理解等任务中展现出替代Transformer的潜力;模块化设计通过统一架构实现多任务协同,显著提升部署效率。
轻量化部署成为技术刚需。参数高效微调、知识蒸馏等技术路径成熟,结合智能体协作、梯度蒸馏等方法,可在保持性能的同时大幅降低计算需求,为研究者提供明确的创新切入点。
垂直领域应用迎来突破窗口。医疗影像、自动驾驶、遥感分析等场景正推动技术专业化。通过概率建模、不确定性校准等方法,有效解决模态缺失、数据对齐等核心痛点,展现出明确的学术价值与应用前景。为帮助研究者快速把握ICCV 2025多模态大模型的核心进展,我们梳理了36篇大会中多模态大模型相关的前沿论文,并提炼了每篇论文的核心关键词与创新点。涵盖架构革新(如Mamba在扩散模型中的应用、统一化基础模型设计)、效率提升(如知识蒸馏、无需训练框架)及垂直领域突破(如自动驾驶、医疗影像、遥感分析)等关键方向
以下筛选部分论文介绍:
Multi-Modal Few-Shot Temporal Action Segmentation

中文标题:多模态少样本时序动作分割
论文简介:提出融合RGB、光流和音频的多模态元学习框架,在少量样本下实现视频动作的精准时序定位。
关键词:少样本学习,时序动作分割,多模态融合,元学习,视频理解
英文关键词:Few-Shot Learning, Temporal Action Segmentation, Multi-Modal Fusion, Meta-Learning, Video Understanding
研究方法和创新点:通过跨模态知识迁移和时序建模,在少样本条件下实现多模态信息的高效融合。
Towards Safe Multi-Modal Learning: Unique Challenges and Future Directions

中文标题:迈向安全的多模态学习:独特挑战与未来方向
论文简介:系统分析多模态系统面临的新型安全威胁,探讨构建可信多模态AI的防御机制与发展方向。
关键词:可信AI,多模态安全,对抗攻击,公平性,鲁棒性
英文关键词:Trustworthy AI, Multi-Modal Safety, Adversarial Attacks, Fairness, Robustness
研究方法和创新点:系统梳理跨模态对抗攻击等新型安全威胁,提出多模态系统的安全防护框架。
Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

中文标题:掌握协作式多模态数据选择:聚焦于信息量、独特性和代表性
论文简介:提出协作式数据选择框架,从三个维度评估样本价值,高效筛选训练数据子集。
关键词:数据选择,主动学习,多模态数据集,数据挖掘,核心集
英文关键词:Data Selection, Active Learning, Multi-Modal Datasets, Data Mining, Coreset
研究方法和创新点:通过综合评估信息量、独特性和代表性,实现多模态数据的高效筛选。
LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance

中文标题:LIRA:利用局部交错区域辅助在大型多模态模型中推断分割
论文简介:提出局部交错区域辅助机制,通过迭代式局部推理提升大模型的细粒度分割能力。
关键词:大语言模型,分割,视觉定位,局部推理,多模态交互
英文关键词:Large Language Models, Segmentation, Visual Grounding, Local Reasoning, Multi-Modal Interaction
研究方法和创新点:通过局部区域迭代推理机制,弥补大模型在像素级分割任务上的不足。
ModalTune: Fine-Tuning Slide-Level Foundation Models with Multi-Modal Information for Multi-task Learning in Digital Pathology

中文标题:ModalTune:利用多模态信息微调玻片级基础模型以用于数字病理学的多任务学习
论文简介:提出多模态微调框架,整合病理图像与临床数据,适配基础模型支持多任务诊断。
关键词:数字病理学,基础模型,多任务学习,多模态微调,医学图像分析
英文关键词:Digital Pathology, Foundation Models, Multi-Task Learning, Multi-Modal Fine-Tuning, Medical Image Analysis
研究方法和创新点:通过整合WSI级别多模态信息,实现基础模型在病理诊断任务上的高效适配。
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing

中文标题:SkySense V2:一个用于多模态遥感的一统基础模型
论文简介:开发统一遥感基础模型,处理多源遥感数据,支持多种地观测任务。
关键词:遥感,基础模型,多模态融合,预训练,地球观测
英文关键词:Remote Sensing, Foundation Models, Multi-Modal Fusion, Pre-training, Earth Observation
研究方法和创新点:通过大规模预训练学习通用表征,实现多模态遥感数据的统一处理。
SMSTracker: Tri-path Score Mask Sigma Fusion for Multi-Modal Tracking

中文标题:SMSTracker:用于多模态跟踪的三路径分数掩码Sigma融合
论文简介:提出三路径网络与动态融合策略,通过可靠性加权提升复杂场景跟踪鲁棒性。
关键词:多目标跟踪,多模态融合,分数校准,数据关联,鲁棒跟踪
英文关键词:Multi-Object Tracking, Multi-Modal Fusion, Score Calibration, Data Association, Robust Tracking
研究方法和创新点:通过三路径结构和分数-掩码-Sigma融合策略,实现多模态信息的自适应加权。
往期推荐
强烈推荐!多模态融合顶会新成果!CVPR/AAAI 高分成果,这波思路必须学!
OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!
NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!
杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!
ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!
NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损


1084

被折叠的 条评论
为什么被折叠?



