本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
原文链接:https://mp.weixin.qq.com/s/fZB1XGteLKHKbAVd0cfFFA

精简阅读版本
本文主要解决了什么问题
-
1. 大规模视觉语言模型(LVLMs)虽然性能卓越,但带来显著计算成本问题,密集的LVLMs计算开销大,效率不高。
-
2. 现有的专家混合(MoE)架构应用于LVLMs时存在问题:一种是将所有模态的token路由到一个共享专家池,忽略了文本和图像token在信息密度和特征分布上的根本差异;另一种是引入模态特定专家,但这些专家主要关注模态内知识,而忽略了跨模态关联。
-
3. 现有的多模态MoE训练方法多采用三阶段训练流程,相对繁琐,且最终阶段的有限训练可能削弱模型的泛化能力。
本文的核心创新是什么
-
1. 提出了混合模态内和模态间专家(MoIIE)模型,包含三个不同的专家组:两个模态内专家组分别专精于语言和视觉,以及一个跨模态专家组由两种模态共享,为每个token动态路由到相应的专家。
-
2. 提出了一种高效且直接的两阶段训练策略,联合优化多模态微调和Sparse化,所有参数在此过程中均被更新,简化了传统的三阶段训练流程。
-
3. 设计了灵活的专家选择模式,每个token可以仅激活模态内专家,仅激活跨模态专家,或同时激活两者,实现了动态路由策略,有效平衡了模态特定特征学习和跨模态关联建模。
结果相较于以前的方法有哪些提升
-
1. 在不同数据规模和LLM主干网络上的大量实验表明,MoIIE模型在性能上优于现有的密集型、模态专家型和原始MoE型LVLM模型。特别是MoIIE模型激活参数量分别为5.5B和11.3B,性能与现有涉及更多激活参数的高级开源MoE多模态模型相当甚至超越。
-
2. 在需要文本概念与对应视觉实体区域之间进行复杂跨模态交互的知识型问答和幻觉基准测试中表现尤为出色,证明其有效处理模态特定特征和跨模态关联的能力。
-
3. 随着数据规模的持续增加,MoIIE性能逐步提升,而其他架构则遭遇性能瓶颈,表明MoIIE框架在多模态学习方面具有优越的扩展性。
-
4. 两阶段训练策略在全面的多模态基准测试中始终优于之前的三阶段训练变体,证明MoIIE更简单且更有效。
局限性
-
1. 训练数据相对有限,可能影响模型在更广泛场景下的泛化能力。
-
2. 仅专注于视觉语言模态,尚未扩展到更广泛的模态(如语音),限制了其在真实多模态场景中的适用性。
深入阅读版本
导读
大规模视觉语言模型(LVLMs)通过扩大模型规模和训练数据量,在多模态任务中展现出卓越的性能。然而,这些密集的LVLMs带来了显著的计算成本,从而推动了Sparse专家混合(MoE)架构的探索。虽然MoE提高了参数效率,但将MoE有效应用于同时建模LVLMs中的模态特定特征和跨模态关联仍然存在挑战。在本工作中,作者提出将模态内和模态间专家混合(MoIIE)引入LVLMs。对于每个 Token ,专家路由由其模态引导,将 Token 引导至其相应的模态内专家以及一个共享的模态间专家池,使模型能够联合学习丰富的模态内特征和跨模态交互。作者进一步引入了一种高效且直接的两阶段训练策略,该策略促进了MoE和多模态能力的直接激活。在不同数据规模和LLM Backbone 网络上的大量实验表明了MoIIE的有效性、效率和泛化能力。值得注意的是,作者的MoIIE模型,其激活参数量分别为5.5B和11.3B,其性能与现有涉及更多激活参数的High-Level开源MoELLMs多模态模型相当甚至超越。
代码 https://github.com/AlenjandroWang/MoIIE
1 引言
大视觉语言模型(LVLMs)[5, 14, 46, 83] 因其能够处理跨视觉和语言模态的信息的能力 [13, 39] 而备受关注。通过连接模块 [43] 将视觉编码器 [60, 79] 与大语言模型(LLMs)相结合,LVLMs 将高维视觉特征与LLMs的语言知识和推理能力进行对齐 [4, 12, 6],并在多种跨模态任务中展现出有效性 [49, 20]。
与单模态LLM类似,扩大模型规模已被证明可以在多模态设置中提升性能[48, 10],但也显著增加了计算成本,尤其是在使用密集Transformer[70]架构时。为了在扩展参数的同时保持效率,近期研究将专家混合(Mixture of Experts, MoE)[31]引入LLM中,用Sparse激活的专家层替代密集 FFN (FFN)层。该方法基于token Level 的路由决策,对每个输入仅选择一小部分专家进行自适应选择,从而降低计算开销同时增强模型能力。
在多模态MoE(Mixture of Experts)实现中,一种常见的方法是将LLM(大语言模型)中的基础MoE设计直接扩展到LVLM(视觉语言模型)中,通过将所有模态的token路由到一个共享的专家池中[42, 22]。然而,这种方法忽略了文本和图像token在信息密度和特征分布上的根本差异[41]。另一种替代方法是引入模态特定的专家,其中文本和图像token被路由到各自的专业专家组。虽然这种设计能够为每种模态实现更专业的特征学习[44, 72, 62],但这些专家主要关注模态内知识,而忽略了跨模态关联,例如文本中名词token与图像中相应实体区域的对齐关系[75],如图1(a)所示。

为此,作者提出了混合模态内和模态间专家(MoIIE)模型,以同时捕捉LVLMs中的模态特定特征和跨模态关联。如图1(b)所示,MoIIE包含三个不同的专家组:两个模态内专家组分别专精于语言和视觉,独立处理文本和图像 Token ;以及一个跨模态专家组由两种模态共享,专注于文本和图像 Token 之间的跨模态交互。相应地,MoIIE为图像和文本 Token 分别学习两个专用路由器,每个 Token 动态路由到相应的模态内专家组和跨模态专家组中最相关的专家。由于并非所有 Token 在模态间都有强关联,例如文本中的功能词或没有描述性内容的视觉区域,路由机制允许灵活的组合。某些 Token 可能仅激活模态内专家或仅激活跨模态专家,而其他 Token 则可以同时访问两个专家组。这种动态路由策略一致应用于图像和文本 Token 。
此外,在多模态MoE训练中,大多数现有方法采用Sparse升级策略[29],将密集LVLM转换为Sparse模型。该策略通常遵循一个三阶段训练流程:密集模型的跨模态预训练、在具有所有参数解冻的多样化多任务数据集上微调密集模型,以及仅训练专家模块进行模型Sparse化[42, 9]。然而,该流程相对繁琐,且最终阶段的有限训练可能削弱模型的泛化能力。相比之下,作者提出可以通过更直接有效的两阶段训练策略,联合优化多模态微调和Sparse化,所有参数在此过程中均被更新。在第一阶段,通过跨模态预训练数据集将视觉输入与LLM主干对齐。在第二阶段,集成MolIE并使用微调数据集优化整个模型,以同时学习(1)多模态理解和指令跟随能力,同时实现(2)在MoIIE模块内通过跨模态关联进行特定模态知识的专家学习。作者的实验结果表明,这种简化策略易于实现,并能有效提升多样化下游任务的性能。
总之,作者的贡献有三方面:
-
• 作者提出了一种具有新型MoIIE模块的鲁棒SparseLVLM框架,有效建模了模态特定特征和跨模态关联。
-
• 作者提出了一种有效且直接的两阶段训练策略,可同时优化多模态微调和MoE模块。
-
• 作者进行了广泛的实验,证明通过两阶段训练策略,作者的MoIIE集成模型在扩展效率方面优于现有的密集型、模态专家型和原始MoE型LVLM模型。
2 方法论
2.1 概述
作者介绍了MolIE,一种集成到LVLMs中的多模态MoE变体,用于捕获模态特定特征和跨模态关联,其全面架构如图2所示。它包含一个预训练的视觉编码器,结合一个连接模块,将视觉输入转换为与LLM token嵌入维度匹配的序列表示。MolIE架构的详细解释在2.2节中提供,随后是作者的提出的简单两阶段训练范式在2.3节中。附录中展示了原始MoE与作者的MolIE之间的详细比较,突出了改进多模态学习的关键架构创新。

2.2 MoIIE架构
2.2.1 多模态输入表示

2.2.2 SparseMoIIE前向

2.3 训练配方
为平衡简洁性与有效性,作者提出一种两阶段训练策略,以有效激活MollE架构的能力。在第一阶段,作者专注于预训练连接模块,以使视觉表征与LLM的语义嵌入空间对齐,从而实现跨不同模态的输入一致性处理。在第二阶段,作者使用基础LLM预训练的FFN初始化模态内和模态间专家,并使用多样化的视觉指令数据集对整个模型进行微调。在此阶段,训练目标包括多模态专家学习以捕获模态特定特征和跨模态关联,以及优化多模态理解和指令遵循能力。

3 实验
3.1 实现细节

3.2 评估基准
作者在13个多样化的多模态基准数据集上进行了全面评估。具体而言,通用多模态基准数据集包括MMBench-EN [49]、MM-Vet [77]、GQA [24]、VQAv2和SEED-Image [33]。对于基于知识的问答,作者使用了MMMU验证子集 [78]、AI2D [27]、SciQA-IMG [51]和Mathvista [52]。对于基于OCR的问答,作者在TextVQA [65]、ChartQA [54]和DocVQA [55]上评估性能。此外,作者使用POPE [38]和HallusionBench [21]评估幻觉鲁棒性。
3.3 主要结果
作者将配备MoIIE的模型与三种 Baseline 变体进行了比较:没有MoE的原始密集模型(Dense)、将所有模态的token路由到共享专家池的Vanilla MoE模型[56],以及模态特定专家的模型,其中文本和图像token被路由到各自的专门专家(Modality MoE)。比较在多个视觉指令微调数据规模和不同的LLM主干网络上进行,如表1所示。主要发现如下:

(1) MoIIE模块在大多数具有不同数据规模和LLM Backbone 大小的基准测试中始终优于所有其他架构变体,这表明整合模态特定特征和跨模态关联能够有效提升多样化多模态任务上的性能。专家模块的进一步分析提供在附录A中。
(2) 具体而言,作者的MolIE模块在需要文本概念与对应视觉实体区域之间进行复杂跨模态交互的知识型问答和幻觉基准测试中表现尤为出色。相比之下,基于OCR的问答任务主要涉及从图像中逐字解释信息,而Modality MoE已经能够取得具有竞争力的性能。这种性能差异突显了MolIE处理模态特定特征和跨模态关联的能力。
(3) 作者在图3中进一步提供了随着微调数据量增加的详细性能趋势。随着数据规模的持续增加,作者的MoIIE性能逐步提升,而其他架构,尤其是Dense和Modality MoE,则遭遇性能 Bottleneck 。此外,在更大的训练数据集上,作者的MolIE始终优于所有替代方案,MoIIE与Dense和Modality MoE之间的性能差距进一步扩大。这表明MolIE框架在多模态学习方面具有优越的扩展性,能够有效利用大规模数据集提升表示能力,而无需密集模型的参数低效性或严格模态分离专家的跨模态推理局限性。

3.4 与基于MoE的LLMs初始化LVLMs的比较
作者进一步将作者在LLaVA-OV-Single-Image数据集[32]上预训练的MoIIE与现有的基于MoE的LLM初始化的开源LVLMs进行比较,以证明其有效性。虽然SPHINX-X[45]、MGM[37]和CuMO[35]这些基于Mixtral-8x7B[56]构建的模型利用大规模语言数据提供稳健的初始化和增强的语言能力,但它们通常需要大量的计算资源,因此在资源受限的设置中不太实用。相比之下,MoIIE在多种多模态基准测试中实现了相当的性能,激活参数减少了17%,减少了整体参数数量,并降低了部署和训练成本。此外,MoIIE允许从任何LLM Backbone 构建基于MoE的LVLMs,支持更灵活的专家设置,而不会牺牲性能。
3.5 训练流程讨论
将密集型大语言模型(LLMs)转换为基于多模态Sparse化的大视觉语言模型(LVLMs)通常涉及一个三阶段训练过程[42, 9]。第一阶段是多模态预训练,通过对齐视觉和文本表征将密集型LLMs转换为密集型LVLMs。第二阶段是用多模态指令数据进行密集型LVLMs的微调,随后进行多模态Sparse化升级阶段以获得基于多模态Sparse化(MoE)的LVLMs。然而,这个三阶段训练流程相对繁琐,且最终阶段的有限训练可能削弱模型的泛化能力。相比之下,作者提出了一种简化的两阶段训练策略,在预训练后将监督微调(SFT)和模型Sparse化整合为单一阶段,从而能够直接激活多模态和MoE能力。
三阶段训练变体使用2M视觉指令数据进行全参数微调的SFT,并使用LLaVA-NEXT-779k进行Sparse升级,仅微调MoE层。两阶段训练变体使用2.7M视觉指令数据进行联合SFT和Sparse升级,以微调所有模型参数。如表3所示,在相同的训练设置下,作者的两阶段训练方法在全面的多模态基准测试中始终优于之前的三阶段训练变体,证明MoIIE更简单且更有效。
3.6 消融实验
专家数量对模型性能的影响增加专家数量通常能提升MoE模型的性能[31, 19]。在表4中,作者保持MoIIE模块中激活参数的数量和不同专家组的分配比例不变,同时改变专家组的总数。结果表明,从4个专家扩展到8个专家,在MMBench、GQA、MM-Vet和MMMU上分别带来了0.3、0.2和0.9个百分点的性能提升,而在POPE和TextVQA上的性能保持稳定或略有下降。这些结果表明,更大的专家池可以提高在复杂基准上的泛化能力,但可能需要更多的数据才能充分发挥其提升性能的潜力。

专家平衡的影响维持模态内和模态间专家的平衡分配对性能有益。如表4所示,作者考察了在8位专家配置下专家平衡的影响。在平衡设置中,作者保持模态内和模态间专家的1:1比例,具体包括2位视觉专家、2位语言专家和4位共享专家。每个路由器从其对应的模态内专家池和模态间专家池中选择前2位专家,从而产生位候选专家。相比之下,不平衡设置采用3:1比例,包括3位视觉专家、3位语言专家和仅2位共享专家。在该配置中,每个路由器从3位模态内和2位模态间候选者中选择前2位专家。实验结果表明,平衡设置始终优于不平衡配置,表明维持模态内和模态间专家的均匀分布能够实现更有效的跨模态交互和整体性能。
MoIIE模块的层位置 作者探索了两种将MoIIE模块集成到LVLMs中的架构配置:交错配置和全配置,分别遵循[42, 2]中的设计。在交错设置中,MoIIE模块每隔一层插入,与标准密集层在整个模型中交错,以保持Sparse和密集计算之间的平衡。相比之下,全配置用MoIIE层替换所有层,最大限度地利用整个网络中的Sparse专家。
如表4所示,完全用MolIE模块替换所有层并不一定能带来显著的性能提升,但由于参数数量更多,会大幅增加训练成本和计算需求。相比之下,交错配置在保持更高训练效率的同时实现了相当的性能,并减少了资源消耗。因此,作者采用交错配置作为基于MolIE的LVLMs的最佳设计选择,确保在性能、效率和可扩展性之间实现了良好的平衡。
负载均衡系数的影响
在MoE架构中,负载均衡与模型性能之间存在固有的权衡。辅助损失被设计用来促进专家间的负载均衡[7]。然而,作者观察到,在强制实现均衡的同时,这种损失不可避免地干扰了多模态学习,可能会阻碍模型捕捉跨模态关联的能力。如表4所示,作者评估了MollE在不同辅助损失权重值下的表现。结果表明,增加会导致整体性能明显下降,特别是在MMU和MM-Vet上,下降最为显著。这表明,找到最佳平衡对于保持稳健的多模态理解至关重要,确保专家专业化不会被严格的负载均衡过度约束。
3.7 Token 路径的可视化
如图4所示,作者在MME测试集上对MoIIE模块中图像和文本 Token 在前馈过程中的专家激活路径进行了可视化。作者的分析揭示了不同模型层之间存在不同的激活模式。在浅层(前半部分),图像和文本 Token 主要激活各自模态内的专家(视觉专家V和文本专家L)。作者假设这种行为是由于浅层专注于提取模态特定特征,且跨模态交互极少。

相比之下,模型的深层(后半部分)显示出向激活跨模态专家(专家S)的转变,从而促进了更深层次的跨模态交互。有趣的是,在深层中,图像和文本 Token 倾向于激活相同的跨模态专家。例如,在第九个MoIIE层中,专家S_1被频繁激活,而在第十二个MoIIE层中,专家S_2成为主要的专家。这些发现表明,作者的MollE模块有效地平衡了特定模态和跨模态处理,动态调整专家激活,以促进早期阶段特征提取和后期阶段模态融合。
4 相关工作
大型视觉语言模型 近期大语言模型(LLMs)[4, 1, 69, 12, 26, 6, 66, 59, 58, 68] 的发展取得了显著泛化能力和指令遵循能力,推动了通用人工智能的进步。为了将这些能力扩展到语言和视觉领域,大型视觉语言模型(LVLMs)的研究获得了越来越多的关注 [36, 3, 46-48]。近期LVLMs的研究通过高质量数据 [23, 8, 81]、额外的训练阶段 [5, 50, 30]、高分辨率输入支持 [40, 72] 和多编码器增强 [63, 45, 18] 提升了性能。最新的开源LVLMs [32, 71, 11] 利用动态分辨率、大规模数据集和先进的LLMs实现了最先进的结果。
LLMs中的专家混合模型 MoE范式[25]实现了选择性专家激活,允许高效扩展同时保持可控的计算成本。将MoE集成到LLMs中涉及用专家模块替换 FFN ,并使用Top-K路由器进行激活[31, 17, 19, 84, 61, 76]。Sparse升级循环[29]通过将密集模型转换为Sparse模型来降低成本。最近的MoE模型[74, 56, 57, 15, 16]通过大规模数据和增强的训练策略提升了性能。
专家混合模型在LVLMs中的应用 MoE被用于LVLMs,如ARIA [34] 和 DeepSeekVL2 [73],利用预训练的基于MoE的LLM主干网络 [56, 15],但受限于固定的专家设置和路由机制,以及高昂的训练成本。Sparse升级技术,如 [9, 42, 44] 中所采用的,被用于提高可扩展性,但仍面临在捕捉模态特定特征和跨模态关系方面的挑战。[82] 引入扩展了传统的参数高效微调框架以支持多模态专家,但模态专家组的影响尚未得到充分探索。为解决这些问题,作者提出了一种模态感知的MoE架构,该架构对模态内专家和模态间专家进行建模。作者的两阶段训练策略优化MoE激活,为构建高性能LVLMs提供了一种更灵活和可扩展的方法。
5 结论
在本研究中,作者提出了MoIIE,一种新颖的专家混合(Mixture-of-Experts)架构,搭配一种简单而有效的两阶段训练策略,能够从任何密集型大语言模型(LLM)灵活构建强大的基于MoE的视觉语言模型(LVLM)。MoIIE将专家组织成专门的内模态组和共享的跨模态组,为视觉和语言处理创建专用路径,同时实现丰富的跨模态关联,显著提升在多种多模态任务中的性能。大量实验表明,MoIIE相较于现有的密集型和Sparse型LVLM架构,实现了更优越的扩展效率。
更广泛的影响与局限性 作者工作的主要局限性在于训练数据相对有限,且仅专注于视觉语言模态。在未来的工作中,作者计划通过整合更多高质量的跨任务数据集、支持动态输入分辨率以及将MolIE扩展到更广泛的模态(如语音)来克服这些局限性,从而提升其泛化能力和在真实多模态场景中的适用性。
参考
[1]. MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

被折叠的 条评论
为什么被折叠?



