不止是GPT-4o的对手！“百灵”Ming-Omni发布，多模态交互进入“中文新纪元”！-优快云博客

本文整理自蚂蚁集团资深算法专家陈景东在 Hugging Face Papers 直播 AI Insight Talk｜ Omni 全模态专场的分享。

引言：百灵大模型的整体战略布局

自推出以来，蚂蚁百灵多模态大模型系列已成为我们持续探索 AI 边界的核心实践。百灵大模型的技术布局聚焦于三大底层基石：

极致算力与系统效率：聚焦推理与训练性能优化，以及 GPU/NPU 异构集群的虚拟化和高效调度能力，以支撑高并发、低延迟的商业应用需求；
端到端安全体系：作为金融科技公司，我们将安全评测、对抗攻击防御和内容约束机制视为核心，构建了端到端的安全防护体系；
垂直领域知识力：针对金融、医疗、生活服务等场景，通过专业数据处理、标注和语义体系构建，将深厚的行业知识有效注入模型。

基于这些基石，我们发展出百灵语言大模型（如 Ling-1T 万亿级模型）和百灵多模态大模型（即 Ming 系列）。这些模型正被广泛应用于医疗、民生服务、安全、时空大数据等多个领域，最终为消费者、企业及专业场景提供现代化的 AI 支持。目前，这些模型均已全面开源，并持续通过社区反馈进行迭代优化。

一、战略选择——全模态融合的必然

百灵已在开源社区发布了六款多模态模型，我们的多模态技术路径围绕模态和任务两大维度展开：

1. 纵轴：模态覆盖广度——从单点到全能

我们很早就确定了全模态输入/输出的技术路线。在真实业务场景中，音视图文信息往往同时存在。因此，我们支持音频、图像、视频、文本的全模态输入，并在输出侧支持图像、音频和文本生成（模态支持能力已与 Gemini、GPT-4o 等先进模型对齐）。

核心洞察：音视图文的深度融合是构建用户“超级入口”的必要条件，使人机交互更自由、更自然。

2. 横轴：任务能力演进——理解与生成的深度统一

当前多模态领域的技术热点在于理解与生成的融合统一。从认知角度看，理解与表达本应形成闭环。我们的目标是实现两个协同层次：

跨模态协同理解：音视图文联合表征
任务协同：理解与生成相互促进，打破“相互冲突”的旧阶段

二、Ming 系列的核心技术突破

百灵多模态的发展围绕 **Scaling（规模化）**和 **Unify（融合统一）**两条主轴，以下这两项成果共同构成了 Ming-Omni 的主体框架，并在此基础上构建了千亿级全模态模型：

Scaling：通过扩大参数规模与数据量，持续提升模型能力，这已被大量实验验证有效。
Unify：早在 2023 年，我们就尝试图像-文本、音-图-文的多模态融合，但初期因单模态能力不足，难以实现“1+1>2”的互促效果。经过近一年探索，我们于 2025 年 4~5 月突破了模态融合的关键技术。同期，我们还受 Meta 的 Meta Query 启发，完成了图像理解与生成的统一架构。

Ming-Omni 模型，是一款“能看、能听、能说、能画”的全能 AI，覆盖绝大多数多模态任务。其核心突破体现在三个方面：模态协同、任务协同与模型规模提升。

突破一：模态协同，全模态模型架构的尝试

Ming Omni 引入了 MoE（混合专家）架构，核心目的不仅在于提升计算效率，更在于实现模态协同：

模态差异化处理：不同专家可专注于不同模态（如图像专家、语音专家），通过多模态 Router 实现表征融合，兼顾模态差异性与共性。

动态 Top-K 激活策略：针对不同模态训练特性（如图像 token 少且收敛快、语音 token 多且收敛慢，梯度量级不一致），我们提出根据每个 Token 的重要性动态分配激活的专家数量。该策略显著提升模型在不同任务上的表现平稳性，并在推理时可减少约 1/3 的 Token 计算量，大幅提升效率。

突破二：任务协同，图像生成与理解统一

我们聚焦于解决理解与生成梯度不连通、优化困难的本质问题。借鉴 Meta Query 经验，我们探索了多尺度 Query 机制来提升图像生成质量。但最关键的突破是提出了非对称 Token 结构，彻底解决梯度不连通问题：

低维 Token：专门用于支持生成任务。
高维 Token：专门用于支持理解任务。
协同优化：低维和高维 Token 通过梯度驱动实现协同优化，首次实现了理解与生成的端到端联合训练，使收敛速度提升三倍以上，总 Token 量减少 1/3。

核心认知飞跃——“编辑”即统一：我们发现，图像领域“理解与生成一体两面”的任务，其本质是“编辑”。例如，当用户说“戴哨子的男人”，模型不仅要理解语义，还需精准定位到每个像素——这本质上是通过生成方式进行分割与编辑。
实测表明，Ming-lite-omni v1.5 在图像分割任务上表现精准。我们将传统的“二值掩码分割”重构为“彩色编辑任务”，使 REFCOCO 指标从 16.3 大幅提升至 73.0。

突破三：任务协调，语音理解与生成统一，语音领域的“One Token to Rule Them All”

我们将视觉领域的成功经验推广到语音模态，用生成方式实现语音编辑，统一理解与生成目标，以解决语音 AI 长期以来的“理解/生成表征割裂”问题：

终结离散 Token：彻底摒弃了传统方案（如 Qwen2.5-Omni）中语音理解侧编码连续但生成端依赖离散码本导致的梯度不连通和训练复杂性。
连续统一表征：设计了声学特征（Low-level）与语义特征（High-level）协同优化的 backbone，并彻底抛弃离散 tokenizer，首次实现了连续统一表征——单一连续 token 同时承载语义信息与声学细节，端到端联合优化理解、生成与编辑三大能力。
Ming UniAudio：业界主流的语音理解和语音生成方案分别使用两套不同的表征方式，这限制了语音编辑任务的效果上限。基于我们自研的理解生成统一表征 MingTok-Audio，同时完成了语音理解和生成任务，并在此基础上实现高质量的语音编辑能力。

第三部分｜Scaling 成果与未来展望

我们在 Ming 1.5 基础上推出了千亿参数的 Ming-Flash-Omni 模型，标志着全模态能力进入新高度。

Scaling 带来的跃升：Ming-Flash-Omni 进一步优化了专家路由机制，采用双路平衡策略——通过 bias 和 loss 共同调控专家负载，实现更精准的多模态融合。Scaling 带来全面能力跃升，理解与生成同步增强，图像生成在 GenEval Benchmark 达到 89.7 分（SOTA），语音上下文建模显著突破。
验证：Ming-Flash-Omni 证明，全模态统一模型完全可达到甚至超越单模态专用模型的效果，前提是妥善处理任务与模态间的冲突。

目前，Ming Flash Omni 已展示强大能力：

图像生成支持细粒度编辑（如换编辑、证件照生成、文本修改）
多图融合与风格迁移仅需简单提示
通过文本指令实现语义、全景、指代表达等多种形式的分割任务

我们相信，未来 AI 的发展在于探索“模态自由组合”带来的泛化能力提升，实现真正的 “1+1>2”。

自年初至今，我们已开源六款模型，诚邀社区共同努力，完善全模态 AI 的生态，共同畅想未来“普通人也能手搓智能设备”的自由人机交互时代。

写在最后 - Ming 系列开源资料与链接

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述