【多模态预训练】通过构建跨模态对比学习目标函数,在异构数据空间建立可迁移的联合表征体系。其技术内核在于学习不同模态数据之间的关联性和互补信息,通过对抗性训练或知识蒸馏实现跨模态语义对齐,从而提升模型在理解、识别、检索或生成等方面的能力。
当前多模态预训练研究主要聚焦三大维度:1)非对称模态交互;2)增量式预训练;3)稀疏化计算。此类技术在多种应用中取得显著的成功,例如视觉问答(VQA)、自然语言视觉推理(NLVR)和视觉语言检索(VLR)等。未来研究或将突破模态对齐理论瓶颈,在量子化多模态嵌入、因果推理驱动的预训练范式等方向开辟新战场。
本文整理了【13篇】多模态预训练最新前沿研究,供大家学习与参考,同学们有需要可以自取~也非常欢迎大家分享给身边的朋友~
感兴趣的可以 [丝 xin] 我~~
一、Disentangling Fine-Tuning from Pre-Training in Visual Captioning with Hybrid Markov Logic
1. 方法
多模态系统在进行特定任务(如视觉描述)之前,通常会在大型数据集上进行预训练,然后再进行微调。这使得很难区分模型在微调过程中学习到的内容与其预训练时获得的知识。本研究旨在通过使用混合马尔可夫逻辑网络(HMLN)来量化训练示例对生成描述的影响,从而揭示微调与预训练之间的关系。
本文采用HMLN模型,将符号知识与视觉特征结合,通过两种推理程序在MSCOCO数据集上评估不同类型的描述模型。实验表明,对于使用大型语言模型(LLM)的BLIP2模型,微调对模型知识的影响较小,因为该模型具有更通用的知识。
2. 创新点
1)混合马尔可夫逻辑网络(HMLN) 传统多模态研究通常依赖纯数据驱动的深度学习方法,而本文创新性地将符号逻辑与神经网络结合,通过HMLN构建了一个可解释的联合推理框架,为量化预训练与微调之间的知识迁移提供了理论工具。
2)微调与预训练的知识边界 本文首次通过可解释性分析,揭示了大型语言模型(LLM)在微调过程中对预训练知识的依赖程度,这为模型优化提供了新方向(减少冗余微调)。
论文链接:https://arxiv.org/abs/2503.13847
二、Modality-Composable Diffusion Policy via Inference-Time Distribution-level Composition
1.方法
本文提出一种新颖的模态可组合扩散策略(MCDP),通过利用多个基于单一视觉模态的预训练DP,结合其分布得分,形成更具表现力的政策,而无需额外训练。通过在推理时组合不同模态的扩散策略,MCDP能够在复杂的多模态环境中提高任务性能。
MCDP预先训练多个基于不同视觉模态(RGB、深度、点云等)的扩散策略模型。在推理时,对每个模态的DP输出进行加权组合,权重根据任务需求动态调整。通过融合后的分布得分指导扩散过程,生成最终的动作序列。广泛的实证实验验证了MCDP在RoboTwin数据集上的适应性和性能提升。
2. 创新点
1)无需训练的跨模态策略融合 传统扩散策略(DP)通常依赖单一模态,而本文首次提出模态可组合扩散策略(MCDP),通过直接组合多个预训练单模态DP的分布得分,在推理阶段动态融合多模态信息。这种方式避免了联合训练或微调的复杂过程,显著提升了部署效率。
2)基于分布得分的策略增强 现有方法多通过特征拼接或中间层融合实现多模态交互,而MCDP创新性地在概率分布层面融合不同模态的扩散策略输出。通过加权组合不同模态的分布得分,直接生成更具鲁棒性的动作序列,突破了对模态对齐和同步性的依赖。
论文链接:https://arxiv.org/abs/2503.12466
三、Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs
1. 方法
本文提出自我改进认知框架(SICOG),旨在通过自生成数据的多模态预训练,增强MLLM的系统性认知能力。引入描述链,通过系统的逐步分析来提高视觉信息的理解和描述的准确性。结合结构化的链式推理(CoT),有效整合多模态信息,促进深入分析。
SICOG在多个基准测试中表现优异,显著提升了MLLM的多模态认知能力,尤其在细粒度感知和复杂推理任务中。通过最小化外部注释,SICOG能够自我生成高质量的训练数据,进一步提升模型性能。
2. 创新点
1)自我改进的多模态预训练 现有MLLM多依赖外部标注数据进行训练,而本文提出自我改进认知框架(SICOG),通过模型自身生成高质量多模态数据,形成“训练-生成-再训练”的闭环。这种自迭代机制突破了传统方法对人工标注的依赖,显著降低了数据成本,同时增强了模型对复杂场景的适应性。
2)描述链与链式推理的协同
-
描述链:通过多级细化步骤(如“整体场景→物体定位→属性分析”)分解视觉感知任务,首次将系统性描述生成融入预训练过程,解决了传统MLLM在细粒度感知中的模糊性问题。
-
链式推理(CoT):在推理阶段引入逻辑约束模板,强制模型输出符合人类认知路径的中间步骤,从而提升复杂任务的可解释性和准确性。
3)最小化外部干预的数据生成 传统数据增强需人工设计规则或标注样本,而SICOG通过预训练模型的初始能力自动生成多模态训练对,并利用置信度筛选和对抗过滤机制剔除低质量数据,实现了完全自主的认知迭代。
论文链接:https://arxiv.org/abs/2503.12303
感兴趣的可以 [丝 xin] 我~~