[](https://link.gitcode.com/i/e1a7423b7a67e2519780609c49870453)
如上图所示,这是Ming-flash-omni Preview模型的官方Logo。作为Inclusion AI团队推出的新一代多模态基础模型,该Logo象征着模型在视觉、语言、音频等多模态领域的融合能力,为开发者和研究人员提供了直观的品牌识别。
📑 技术报告|🤗 Hugging Face| 🤖 ModelScope
模型概述
Ming-flash-omni Preview作为Ming-Omni的重大升级版本,基于Ling-Flash-2.0的稀疏混合专家(MoE)架构扩展而来,总参数量达到1000亿,而每token仅激活60亿参数。相较于前代模型,该版本在多模态理解与生成能力上实现了全面提升:语音识别领域突破性地实现了上下文感知与方言识别的双重SOTA性能;图像生成方面新增高保真文本渲染功能,并显著增强场景一致性与身份保留能力;创新性引入生成式分割技术,不仅实现高精度独立分割效果,更强化了图像生成的空间控制能力与编辑一致性。在多模态基准测试中,该模型已展现出与行业领先模型相抗衡的综合性能。
[](https://link.gitcode.com/i/e1a7423b7a67e2519780609c49870453)
如上图所示,该概览图系统展示了Ming-flash-omni Preview的多模态能力矩阵,涵盖视觉、语言、音频等核心模态的输入输出关系。通过直观的模块连接示意图,清晰呈现了模型在跨模态任务中的协同工作机制,帮助读者快速理解其技术架构的整体设计理念。
版本更新记录
- [2025.10.27] 🔥 Ming-flash-omni Preview预览版正式发布,代码库地址:Ming-flash-omni Preview
- [2025.07.15] 🔥 Ming-lite-omni v1.5版本发布,全模态性能实现显著提升
- [2025.06.12] 🔥 技术报告Ming-Omni: A Unified Multimodal Model for Perception and Generation正式上线arXiv
- [2025.05.28] 🔥 Ming-lite-omni v1正式版发布,新增图像生成功能并优化整体性能
- [2025.05.04] 🔥 Ming-lite-omni测试版Ming-lite-omni-Preview首次公开
核心技术创新
相较于Ming-lite-omni v1.5,Ming-flash-omni Preview在以下三个关键领域实现突破性优化:
多模态稀疏混合专家架构
采用100B总参数/A6B激活的MoE骨干网络(基于Ling-Flash-2.0扩展),创新性设计双平衡路由机制,通过辅助负载均衡损失与模态级路由偏置更新相结合的方式,确保所有模态的专家激活均匀性与训练稳定性,解决了传统MoE模型在多模态场景下的模态竞争问题。
生成式分割编辑范式
将分割任务与编辑功能统一为语义保留的生成任务,在GenEval评测集上达到0.90的优异成绩,超越非强化学习方法在细粒度空间控制上的表现。该范式使模型能够理解图像语义结构,为精确编辑提供像素级指导。
上下文感知与方言语音识别
在全部12项ContextASR基准测试中均刷新SOTA性能,同时针对15种汉语方言实现识别准确率的显著提升。通过引入语境依赖建模与方言声学特征适配技术,大幅改善复杂场景下的语音转写效果。
[](https://link.gitcode.com/i/e1a7423b7a67e2519780609c49870453)
上图展示了Ming-flash-omni Preview的核心功能架构设计,清晰呈现了稀疏MoE模块、多模态编码器、生成式分割单元等关键组件的协同工作流程。这种模块化设计不仅确保了各模态能力的独立优化,更实现了跨模态信息的高效融合,为复杂多模态任务提供了强大的技术支撑。
典型应用场景
实时视频对话
该场景展示了模型在多模态实时交互中的应用价值,通过同步处理视频流、音频流与文本信息,实现流畅自然的人机对话体验,可广泛应用于智能客服、远程协作等领域。
上下文语音识别与方言识别
演示视频直观呈现了模型在嘈杂环境下的上下文感知能力,以及对粤语、四川话等方言的精准识别效果,为多场景语音交互提供技术保障。
语音克隆
该功能展示了模型通过少量语音样本即可精准复制说话人音色与语调的能力,在有声内容创作、辅助语音等领域具有重要应用价值。
图像生成与编辑
视频演示了基于生成式分割技术的图像编辑过程,模型能够精准识别并修改图像中的特定区域,同时保持整体场景的一致性,为创意设计与内容制作提供强大工具。
模型获取方式
用户可通过HuggingFace与ModelScope两大平台获取最新模型权重。历史版本如Ming-lite-omni v1.5的下载链接请参见对应版本说明。
| 模型名称 | 输入模态 | 输出模态 | 下载链接 |
|---|---|---|---|
| Ming-flash-omni Preview | 图像、文本、视频、音频 | 图像、文本、音频 | 🤗 HuggingFace 🤖 ModelScope |
国内用户推荐通过ModelScope平台下载以获得更佳体验:
pip install modelscope
modelscope download --model inclusionAI/Ming-flash-omni-Preview --local_dir inclusionAI/Ming-flash-omni-Preview --revision master
注意:模型下载时间根据网络条件不同,通常需要几分钟至数小时不等。建议使用稳定的网络环境并预留足够存储空间。
性能评估
Ming-flash-omni Preview在视觉-文本理解、图像生成、音频理解与文本转语音等任务上均展现出竞争力的性能表现。详细的评估指标、数据集信息与对比结果请参见我们的技术报告。报告中包含了与当前主流多模态模型的全面对比,覆盖从基础能力到复杂任务的多层次评估。
快速上手指南
以下提供简单的模型使用示例,完整教程与高级用法请参考项目仓库中的cookbook.ipynb。
import os
import torch
import warnings
from bisect import bisect_left
warnings.filterwarnings("ignore")
from transformers import AutoProcessor
from modeling_bailingmm2 import BailingMM2NativeForConditionalGeneration
def split_model():
device_map = {}
world_size = torch.cuda.device_count()
num_layers = 32
layer_per_gpu = num_layers // world_size
layer_per_gpu = [i * layer_per_gpu for i in range(1, world_size + 1)]
for i in range(num_layers):
device_map[f'model.model.layers.{i}'] = bisect_left(layer_per_gpu, i)
device_map['vision'] = 0
device_map['audio'] = 0
device_map['linear_proj'] = 0
device_map['linear_proj_audio'] = 0
device_map['model.model.word_embeddings.weight'] = 0
device_map['model.model.norm.weight'] = 0
device_map['model.lm_head.weight'] = 0
device_map['model.model.norm'] = 0
device_map[f'model.model.layers.{num_layers - 1}'] = 0
return device_map
# 加载预训练模型(约需10分钟)
model_path = "inclusionAI/Ming-flash-omni-Preview"
model = BailingMM2NativeForConditionalGeneration.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
device_map=split_model(),
load_image_gen=True,
load_talker=True,
).to(dtype=torch.bfloat16)
# 初始化多模态处理器
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
# 推理流程实现
def generate(messages, processor, model, sys_prompt_exp=None, use_cot_system_prompt=False, max_new_tokens=512):
text = processor.apply_chat_template(
messages,
sys_prompt_exp=sys_prompt_exp,
use_cot_system_prompt=use_cot_system_prompt
)
image_inputs, video_inputs, audio_inputs = processor.process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
audios=audio_inputs,
return_tensors="pt",
audio_kwargs={"use_whisper_encoder": True},
).to(model.device)
for k in inputs.keys():
if k == "pixel_values" or k == "pixel_values_videos" or k == "audio_feats":
inputs[k] = inputs[k].to(dtype=torch.bfloat16)
with torch.no_grad():
generated_ids = model.generate(
**inputs,
max_new_tokens=max_new_tokens,
use_cache=True,
eos_token_id=processor.gen_terminator,
num_logits_to_keep=1,
)
generated_ids_trimmed = [
out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
return output_text
# 问答示例
messages = [
{
"role": "HUMAN",
"content": [
{"type": "text", "text": "请详细介绍鹦鹉的生活习性。"}
],
},
]
output_text = generate(messages, processor=processor, model=model)
print(output_text)
# 输出结果:
# 鹦鹉是一种非常聪明和社交性强的鸟类,它们的生活习性非常丰富和有趣。以下是一些关于鹦鹉生活习性的详细介绍:
# ### 1. **栖息地**
# 鹦鹉主要分布在热带和亚热带地区,包括非洲、亚洲、澳大利亚和南美洲。它们通常生活在森林、草原、沙漠和城市环境中。不同种类的鹦鹉对栖息地的要求有所不同,但大多数鹦鹉喜欢有丰富植被和水源的地方。
# ### 2. **饮食**
# 鹦鹉是杂食性动物,它们的饮食非常多样化。它们的食物包括种子、坚果、水果、蔬菜、花蜜和昆虫。鹦鹉的喙非常强壮,能够轻松地打开坚硬的果壳和坚果。一些鹦鹉还会吃泥土或沙子,以帮助消化和补充矿物质。
# ......
引用说明
如果您的研究或项目使用了本模型,请通过以下格式引用:
@misc{Mingflash2025,
title = {Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation},
author = {Inclusion AI},
year = {2025},
eprint = {2510.24821},
archivePrefix = {arXiv},
url = {https://arxiv.org/abs/2510.24821}
}
@misc{Mingomni2025,
title = {Ming-Omni: A Unified Multimodal Model for Perception and Generation},
author = {Inclusion AI},
year = {2025},
eprint = {2506.09344},
archivePrefix = {arXiv},
url = {https://arxiv.org/abs/2506.09344}
}
未来展望
Ming-flash-omni Preview作为新一代多模态基础模型,通过稀疏混合专家架构与生成式分割技术的创新,为多模态智能应用开辟了新的可能性。团队将持续优化模型效率与跨模态理解能力,未来计划在以下方向推进:增强多轮对话中的上下文一致性、扩展更多方言与地方语言支持、提升复杂场景下的图像生成保真度。我们相信,这种统一的多模态建模范式将为人工智能的通用化发展提供重要支撑。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



