浙大联合上海AI Lab提出Astrea!基于MoE的MLLM新框架!

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

数源AI 最新论文解读系列

论文名:Astrea: A MOE-based Visual Understanding Model with Progressive Alignment

论文链接:https://arxiv.org/pdf/2503.09445

导读

视觉语言模型(Visual-Language Models,VLMs)通过整合视觉和语言模态,已成为多模态理解任务的核心范式。视觉语言模型旨在通过同时处理图像和文本数据来实现复杂的理解任务。其关键优势在于能够在单一框架内统一多模态和多任务场景。

简介

基于专家混合(Mixture-of-Experts,MoE)架构的视觉语言模型(Vision-Language Models,VLMs)已成为多模态理解领域的关键范式,为整合视觉和语言信息提供了强大的框架。然而,任务的复杂性和多样性不断增加,在协调异构视觉专家之间的负载平衡方面带来了重大挑战,因为优化一个专家的性能往往会损害其他专家的能力。为了解决任务异构性和专家负载不平衡的问题,我们提出了阿斯特蕾亚(Astrea),这是一种基于渐进式预对齐的新型多专家协作视觉语言模型架构。阿斯特蕾亚引入了三项关键创新:1)一种异构专家协调机制,将四个专门模型(检测、分割、分类、字幕生成)集成到一个涵盖基本视觉理解元素的综合专家矩阵中;2)一种动态知识融合策略,以渐进式预对齐为特色,通过对比学习在视觉语言模型的潜在空间中协调专家,并辅以概率激活的随机残差连接以保持知识的连续性;3)一个增强的优化框架,利用动量对比学习进行长程依赖建模,并使用自适应权重分配器进行实时专家贡献校准。在涵盖视觉问答、图像字幕生成和跨模态检索的12个基准任务上的广泛评估表明,阿斯特蕾亚优于现有最先进的模型,平均性能提升了4.7%。本研究首次通过实证证明,渐进式预对齐策略使视觉语言模型能够克服任务异构性的限制,为开发通用多模态智能体奠定了新的方法论基础。

方法与模型

我们的任务是通过两阶段训练获得一个基于混合专家(MoE)的统一模型,以解决异构专家协作的问题。如图1所示,我们的训练分为两个阶段。第一阶段是对齐阶段,在此阶段模型从粗粒度理解逐步发展到细粒度理解,具体细节见3.1.1节。在此过程中,我们采用残差连接来防止遗忘,具体将在3.1.2节详细介绍。由于视觉语言模型(VLM)在对齐阶段已经适应了各项任务,因此在主模型训练阶段其训练负荷显著降低。指令调优的细节可在3.1.3节查看。我们使用动量学习来提高特征准确性,具体将在3.2节详细讨论。最重要的是,我们提出了一种使用动态权重分配的新型MoE网络,具体内容将在3.2.2节详细阐述。

图1. Astrea的流程。左图展示了预对齐的四个阶段,指令阶段未明确显示。请注意,目标标签仅突出强调的要点;实际上,目标范围是逐步扩大的。右图展示了主模型,它使用左图的结果进行初始化。

1. 对齐

在这个阶段,我们的目标是将大语言模型与各种模型对齐,完成Astrea模块的初始化。

1.1. 渐进式训练

从视觉信息表示的角度来看,物体之间的语义、空间位置和关系能够有效捕捉图像的本质内容。因此,在设计特征提取策略时,我们主要纳入了这三种类型的信息。我们的训练过程采用从粗粒度到细粒度的渐进式方法,从全局视角开始,逐步转向更详细的局部信息。关于粒度的解释,补充材料中有进一步的讨论。这种逐步细化的过程有助于模型在早期阶段建立对整体视觉信息的全局理解,然后逐步捕捉更详细的特征。在模型训练期间,我们使用前馈神经网络(FFN) [27] 来处理特征,旨在将不同来源的特征对齐到相同的维度,这也增强了模型的灵活性。

给定一幅RGB图像 ,其中  和  是原始分辨率。模型处理输入图像以获得视觉标记序列  ,其中  表示视觉标记的序列长度, 表示视觉语言模型(VLM)的隐藏层大小。同样,文本经过词嵌入层并进行投影以获得序列标记 ,其中  表示文本标记的序列长度。

我们通过自回归方式的生成损失来优化视觉语言模型(VLM)的输出。给定一幅图像和文本,混合专家模型 - 语言视觉助手(MoE - LLaVA)[34]通过逐步生成每个元素来生成输出序列 ,其中表示输出序列的长度。公式如下:

其中是一个可训练参数,我们仅计算生成文本的损失。

1.2. 随机残差连接

在预对齐阶段,为防止模型在针对新目标进行训练时遗忘从先前任务中学到的知识,我们引入了残差连接的概念。具体而言,我们在任务之间随机引入残差连接,使模型能够灵活利用先前任务的知识并减少遗忘。这种残差机制[17]在任务之间引入了一定程度的连贯性,从而增强了模型适应多任务的能力。受记忆库的启发,我们为每个模型创建一个缓存,用于记录每幅图像的特征,其中是模型的数量,是图像的数量,那么第个缓存中第幅图像的嵌入可以表示为。这种方法不仅避免了重新计算先前任务的特征表示,还能实现多任务之间的高效信息共享。当进入第个模型时,第个模型的前馈网络(FFN)处理的图像的特征记为,输入到大型语言模型(VLM)的特征则表示为:

其中是一个二进制变量,用于以一定概率控制是否添加残差连接,是残差连接的权重参数。函数和分别是将特征转换为查询、键和值表示的映射函数。在训练完第个模型后,我们冻结其参数。同时,如果需要多轮预训练,我们将更新当前模型的特征缓存。这种逐步冻结和缓存策略使模型能够在不丢失先前任务知识的情况下持续学习新任务。

1.3. 指令调优

首先,需要构建数据集。每个阶段的对齐过程标签包含先前阶段标签的总结。以RAM [44]为例,指令设置为“描述、识别”。其他视觉专家也进行类似处理。

如图1左图所示,前馈网络(FFN)和残差连接将从已完成训练任务中提取的特征传递到当前训练任务。训练从左到右依次进行,每次引入新任务时,模型不仅考虑当前任务的目标,还考虑先前任务的目标。这种分阶段学习机制,结合对先前任务标记的考虑,有助于防止知识遗忘,并确保模型在承担新任务时保留先前任务的学习成果。

2. Astrea的架构

在这个阶段,视觉语言模型(VLM)具备了多模态理解能力。

2.1. 动量对比学习

我们选择对比学习 [7] 作为学习策略,该策略促使模型捕捉样本间的本质语义差异,而非微不足道的表面特征。根据经验,增加负样本数量可显著提升模型训练效果,因为更多负样本有助于模型更好地区分正样本和负样本。然而,当批量大小较小时,对比学习的表现不佳。此外,由于计算资源的限制,单纯增加批量大小来添加更多负样本并不可行。为解决这一问题,我们采用动量对比学习 [18]。具体而言,我们维护一个队列来存储过往批次的样本表示,从而在无需增大当前批量大小的情况下有效增加负样本数量。当前批次被添加到队列中,同时队列中最旧的批次被移除。这种方法使我们能够灵活设置队列大小,而不受批量大小的限制。

设批量大小表示为 ,队列为 ,其中  是队列大小, 是特征维度。首先,将当前批次的嵌入更新到队列中,而队列中的其他嵌入由动量编码器更新。因此,动量对比学习损失的计算如下

如下:

其中  是一个缩放因子,用于防止过拟合,而  是一个温度超参数,用于从行和列两个角度控制对比学习的贡献。

设当前的  和  分别表示当前编码器和动量编码器的参数。在当前批次结束前,根据公式 7 更新动量编码器:

其中  是一个动量系数。只有参数  通过反向传播进行更新。公式 8 中的动量更新使  比  更平滑地演变。这样,尽管队列中的键在不同批次中由不同的编码器编码,但这些编码器之间的差异可以最小化。我们的设计既考虑了同一批次内样本之间的相对关系,也考虑了不同批次间样本之间的相对关系。这种方法有效地增加了负样本的数量,从而提高了训练效果并增强了模型的泛化能力。

2.2. 更好的权衡

传统模型在对新任务进行训练时,往往会遗忘从先前任务中学到的知识,这限制了它们在多任务学习中的表现。为解决这一问题,我们引入了专家混合(Mixture of Experts,MoE)[13] 的概念,使用独立的专家模块来保留每个任务所需的能力。这种设计使每个模型能够专注于特定任务,并且在学习新任务时不会丢失先前任务的知识,从而有效地跨任务保留知识。由于视觉语言模型(VLM)的适配已经在对齐阶段完成,因此在主模型阶段,VLM 的训练负担显著减轻。

路由层是一个线性层,用于预测将令牌分配给每个专家的概率,可表示为 。由于我们最终只混合前  个专家的决策,因此首先按降序对权重  进行排序。然后,我们将最小的  个权重设为零,并应用 softmax 函数使分布极化,以确保每个任务尽可能由特定的专家处理。我们将其公式化为:

此外,我们引入了一种创新方法,即使用适配器进行权重重新分配,以减少决策错误的可能性。对于每个输入,适配器根据数据的特征动态地为不同的专家模块分配权重,从而确定每个专家对最终输出的贡献。设前馈网络(FFN)的输出特征表示为 ,则专家混合(MoE)的输出可以表示为:

其中  是图 1 中提到的适配器,它通过多层感知器(MLP)网络实现。参数  表示参与决策过程的专家数量。这意味着并非所有专家都参与每个决策;相反,模型自适应地选择 (默认值为 3)个最有可能的专家进行贡献。

最终,总损失表示为:

其中  的计算方式与对齐阶段相同。 是一个超参数,用于调节对比学习的贡献。

实验与结果

1. 实现细节

我们采用LLAVA-Next [36]框架进行多分辨率设置,该框架将高分辨率图像划分为多个低分辨率图像块。采用AdamW优化器,参数为和 0.98,权重衰减率为0.05。训练期间使用余弦学习率调度器,峰值学习率为1e - 4,线性预热率为。

对于文本编码器,我们评估了RAM和RAM++。对于目标检测,我们测试了Grounding - DINO和Grounding - DINO - 1.5;对于分割,我们探索了SAM和SAM2。在全局信息提取模块中,评估了各种模型,包括OpenAI CLIP ViT - L/14@336、EVA - CLIP - 02 ViT - L/14@336、SigLIP ViT - SO400M/14@384和DINOv2 ViT - L/14@336。预对齐后,我们选择了最有效的组合:SigLIP、RAM++、Grounding - DINO - 1.5和SAM2。训练在个GPU上进行,分为四个预对齐阶段,步数分别为和。对于

有关数据集和说明的详细信息将在补充材料中展示。

2. 评估指标

对于图像,我们使用了一套常用的基准测试 。具体而言,对于视觉问答(VQA)任务,通过将模型的回答与真实答案进行比较来评估性能,并报告Top-1准确率。对于定位能力,如果预测的边界框与真实边界框的交并比(IOU)超过0.5,则认为预测正确,并相应报告准确率。此外,我们通过多个工具包进行了全面评估,以彻底评估多模态感知和对话能力。这些工具包涵盖开放式回答和事实准确性评估。

对于视频,我们使用GPT - 3.5 [12]来评估模型回答的准确性(答案是否正确)和质量(得分范围从0到5)。此外,我们采用了VideoChatGPT [10]引入的视频生成性能基准(VCG分数),该基准通常涉及较长的回答。此基准涵盖视频理解的五个方面:信息正确性、细节关注度、上下文理解、时间理解和一致性。生成质量也使用GPT - 3.5模型进行评估。

图2. 问答任务演示。柱状图显示了路由器输出的四个模型的贡献概率。

3. 主要结果

从图2中我们可以观察到,当任务类型确定时,与之对应的正确专家模型贡献最大,例如,字幕任务对应ViT。这种符合逻辑预期的情况证实了我们的混合专家(MOE)策略是有效的。从表1和表2中可以看出,Astrea在多个任务中显著优于其他模型,特别是在知识和OCR与图表类别中,这些类别通常需要更高水平的跨模态理解和协作。预对齐过程使Astrea能够在正式训练前确保模型不同模块之间的协调,从而减轻主模型训练期间的负担。此外,随着预对齐步骤的增加,模型在指令微调阶段可以快速适应简单  任务。然而,对于复杂的视觉推理对话任务,有效的适应需要事先进行彻底的视觉 - 语言对齐。

在图像理解任务中,Astrea模型显示出显著优势。在通用类别数据集上,包括  和 ,Astrea优于其他模型,尤其在  和  数据集上表现出色,这表明其多专家和动态权重分配策略在处理常识和日常信息任务方面具有很高的准确性。在知识类别中,在  和  等数据集上,Astrea也取得了出色的表现,凸显了其在科学和数学等专业领域令人印象深刻的理解和应用能力。这一优势归功于其多专家结构和动态任务选择能力。在  类别中,在诸如ChartQA、OCRBench和DocVQA等数据集上,Astrea始终得分较高,展示了视觉模块在文本识别和图表信息理解方面的高效性。同样,在以视觉为中心的类别中,Astrea在Realworld  -Bench2D和  -Bench3D等数据集上表现出色,在  -Bench3D上得分尤其高,展示了其在空间和深度信息理解方面的强大能力。总体而言,这些结果表明Astrea在通用、基于知识、OCR和以视觉为中心的任务中均表现出色。

Astrea在视频理解任务中也表现出色。在多项选择视频问答(MC - VQA)任务中,Astrea - 34B在EgoSchema、Perception - Test、 和VideoMME等数据集上取得了出色的准确率,表明其在多项选择视频问答中具有较强的理解和推理能力。在视频字幕生成(VC)任务中,Astrea在  数据集上表现异常出色,超越了其他模型,尤其是在正确性和详细度指标上,这凸显了其在生成精确详细描述方面的优势。此外,在开放式视频问答(OE - VQA)任务中,Astrea - 34B在MSVD和ActivityNet数据集上的表现也领先。这些结果证明了Astrea在视频理解任务中具有全面且卓越的能力,显示出其准确回答问题和生成内容丰富描述的能力。

4. 消融研究

如图3所示,随着训练步数的增加,每个阶段的每个指标都呈上升趋势。每次模型在优化过程中达到停止点并切换到下一阶段时,都会取得新的收益,这表明训练策略是有效的。如表3所示,随着参与决策的专家数量从1增加到3,模型在各项任务中的表现逐渐提升。使用  时,模型在多个指标上达到了最佳性能,而在  时观察到性能略有下降,这表明选择三位专家进行决策是最优的。这一现象表明,适度增加专家数量有助于提高模型的整体性能,但过多的专家可能会引入冗余信息或过度的复杂性,从而影响性能。如表4所示,与不使用该架构相比,我们的方法通过利用对比学习和残差连接取得了更好的结果,从而证明了这两种结构在我们方法中的作用和必要性。如表5所示,在字幕生成(Caption)阶段,我们测试了OpenAI CLIP ViT - L/14@336 [47]、EVA - CLIP - 02 ViT - L/14@336 [55]、DINOv2 ViT - L/14@336 [46] 和SigLIP ViT - SO400M/14@384 [65] 作为特征提取器。在分类(Classification)阶段,我们测试了RAM++ [21] 和RAM作为特征提取器。在检测(Detection)阶段,我们评估了Grounding - DINO - 1.5和Grounding - DINO - 1.0作为特征提取器,在分割(Segmentation)阶段,我们测试了SAM和SAM2作为特征提取器。最终,SigLIP ViT - SO400M/14@384、RAM++、Grounding - DINO - 1.5和SAM2的组合产生了最佳结果。这是因为性能较高的模型通常会产生更好的训练结果。此外,Dinov2作为一种跨多个视觉维度训练的自监督视觉骨干网络,在视觉任务中表现出色。如表6所示,遵循我们的渐进式训练策略可以在所有指标上取得最佳结果,改变默认顺序或使用同步方法将导致模型在所有数据集上的性能下降。

图3. 对齐阶段不同主题的各种指标随训练步数的变化趋势。 结果被归一化到0 - 100的范围。对齐过程按顺序通过字幕生成(Caption)、分类(Classification)、检测(Detection)和分割(Segmentation)阶段。

结论

在本文中,我们提出了Astrea模型,引入了一种渐进式预对齐策略,该策略可减轻主模型的训练负担,同时创新的训练技术有助于缓解知识遗忘问题。此外,Astrea解决了多任务异质性与模型泛化能力之间的权衡挑战。该模型通过采用混合专家(Mixture of Experts,MoE)架构、动态特征融合和动量对比学习得到进一步增强。Astrea通过异构专家协作和知识融合策略,为大规模视觉语言建模提供了一个强大且可扩展的解决方案,为视觉理解任务树立了新的标准。我们的工作在多模态大语言模型领域做出了贡献。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值