蚂蚁百灵发布千亿级开源全模态大模型Ming-flash-omni-Preview,多模态交互能力实现突破
近日,蚂蚁百灵大模型团队正式对外发布了全新的开源全模态大模型——Ming-flash-omni-Preview,该模型凭借1030亿的总参数规模,成为目前业内首个参数达到千亿级别的开源全模态大模型。据团队介绍,Ming-flash-omni-Preview基于Ling 2.0的稀疏MoE(Mixture of Experts)架构打造,在实际运行过程中激活参数为90亿,实现了“大容量、小激活”的高效运行模式。相较于此前广受好评的Ming-lite-omni-1.5版本,新模型在全模态理解与生成两大核心能力上均实现了显著提升,整体性能已处于开源全模态模型的领先地位,尤其在可控图像生成、流式视频理解以及语音识别等细分领域,展现出了令人瞩目的性能表现。
如上图所示,该模型结构图清晰地呈现了Ming-flash-omni-Preview基于稀疏MoE架构的全模态模型框架。这一框架的核心在于创新性地融入了模态级路由机制和多模态交互模块,直观地展示了模型如何实现对各模态数据的高效处理与融合,为读者理解模型的底层架构设计提供了重要的视觉参考。
蚂蚁百灵团队在介绍Ming-flash-omni-Preview时着重指出,与Ming-lite-omni-1.5相比,新模型在技术层面进行了多维度的深度优化,这些优化是其性能提升的关键所在。
首先,在基于稀疏专家架构的全模态训练方面,Ming-flash-omni-Preview实现了重要突破。团队将Ling-flash-2.0的稀疏MoE架构成功拓展到全模态大模型领域,并基于Ming-lite-omni中提出的模态级路由机制,进一步实现了对各模态数据分布以及路由策略的精准建模。这一举措使得模型能够针对不同模态数据的特性,灵活调整处理方式,从而真正实现了各模态的“大容量、小激活”目标。为了强化对长视频内容的时空建模能力,提升视频交互体验,团队在模型的Attention层创新性地引入了VideoRoPE技术。此外,在训练策略上,团队采取了一系列保障措施:一方面,为确保稀疏MoE架构下全模态训练的稳定性,采用了混合专家平衡方案,该方案巧妙结合了辅助负载均衡损失与路由器偏置更新两种技术手段,有效保证了训练过程中专家的均匀激活和模型的顺利收敛;另一方面,在语音训练任务上,团队提出了上下文感知的ASR(自动语音识别)训练范式,该范式将任务或领域信息作为解码条件输入模型,显著提高了专有名词的识别准确率和转录一致性。同时,团队还引入了高质量的方言等语音训练语料,使得模型对湖南话、闽南话、粤语等15种中国方言的识别准确率得到了大幅提升,极大地扩展了语音识别的应用场景。
其次,在生成式分割编辑一体化方面,Ming-flash-omni-Preview也取得了重大进展。在构建统一多模态模型的过程中,如何高效融合图像的理解能力与生成能力一直是困扰业界的核心挑战。此前的Ming-lite-omni-1.5版本通过冻结语言通路,并借助多尺度QueryToken注入层级化语义的方式,在保持理解性能的同时,使得生成目标能够更好地与理解任务相融合。虽然这一训练策略在一定程度上提升了模型训练的稳定性,但由于理解与生成的学习目标在本质上存在差异,即便引入了层级化语义,那些细粒度的视觉知识,例如物体的属性和空间关系等,仍然难以高效地迁移到高精度的生成与编辑任务中,这在很大程度上限制了模型在生成质量和可控性方面的进一步提升。为了克服这一技术瓶颈,Ming-flash-omni-Preview创新性地提出了“生成式分割即编辑”的协同训练范式。该范式将传统的图像分割任务巧妙地重构为语义保持的编辑任务,例如让模型执行“将香蕉涂成紫色”这样的指令。这种设计的关键作用在于:它强制统一了模型的理解和生成目标——因为成功的编辑操作必须依赖于对对象轮廓的精确理解,而编辑质量的高低又能直接为理解任务提供有效的监督信号。通过这种方式,模型的细粒度时空语义控制能力得到了直接增强,同时也间接解决了纯文本到图像生成过程中常见的组合性问题。在权威的GenEval基准测试中,Ming-flash-omni-Preview取得了0.90分的优异成绩,超越了所有领先的非强化学习(non-RL)方法;在GEdit基准测试中,模型在物体删除、物体替换等精准编辑任务上的平均分从6.9分提升至7.9分。这两项测试结果充分证明,通过“生成式分割即编辑”训练范式所获得的细粒度时空语义控制能力,不仅显著提升了模型在精准编辑任务上的表现,还能够有效地泛化到纯文本驱动的图像生成任务中,展现出了强大的技术优势。
最后,在高效全模态训练架构方面,Ming-flash-omni-Preview同样进行了深度优化。训练全模态基础模型通常面临两大主要挑战:一是数据异构性,即不同模态的输入数据形状各异;二是模型异构性,即不同模态的专用编码器难以实现并行处理。这些问题直接导致了训练过程中的负载失衡、内存碎片化以及流水线气泡等现象,严重拖慢了模型的训练速度。为了解决这些问题,蚂蚁百灵团队在训练Ming-flash-omni-Preview模型时,基于Megatron-LM框架进行了两项关键优化:其一,序列打包(Sequence Packing)技术,专门用于解决数据异构性问题。该技术将长度不一的序列数据密集打包成固定长度的批次,有效提高了内存利用率和计算密度;其二,弹性编码器分片(Flexible Encoder Sharding)技术,主要用于解决模型异构性问题。该技术对Megatron-LM框架进行了扩展,使其能够支持模态编码器在数据并行(DP)、管道并行(PP)和张量并行(TP)上的细粒度分片,从而成功消除了流水线气泡,实现了训练过程中的负载均衡。通过这些优化措施,Ming-flash-omni-Preview的训练吞吐量较之前的基线水平提升了整整一倍,极大地缩短了模型的研发周期。
目前,Ming-flash-omni-Preview模型的代码和权重文件已全面开源,开发者可以通过多个平台获取相关资源,包括Gitcode(仓库地址:https://gitcode.com/hf_mirrors/inclusionAI/Ming-flash-omni-Preview)、HuggingFace以及ModelScope等。
综上所述,蚂蚁百灵大模型团队发布的Ming-flash-omni-Preview,凭借其千亿级的参数规模、先进的稀疏MoE架构以及在模态融合、训练策略等方面的多项技术创新,不仅在全模态理解与生成能力上实现了突破,也为开源社区贡献了一个极具价值的全模态大模型底座。该模型的开源将极大地降低全模态大模型的研究与应用门槛,有望推动多模态技术在各行各业的广泛应用,例如智能客服、内容创作、视频分析、无障碍沟通等领域。未来,随着开发者对该模型的进一步探索和优化,我们有理由相信,Ming-flash-omni-Preview将在更多细分场景中展现出强大的赋能能力,为人工智能的发展注入新的活力。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



