2025年10月30日,北京智源人工智能研究院(简称"智源研究院")正式对外发布新一代多模态世界大模型——"悟界EMU3.5"。在大语言模型(LLM)的文本理解与生成能力逐渐触及技术天花板、行业迫切寻求下一代AI发展方向的关键节点,这一突破性成果不仅重新定义了多模态技术的发展路径,更标志着人工智能从"语言智能"向"世界智能"的战略转型。
【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5
当前AI领域正面临模态融合的核心困境:如何让机器像人类一样自然地理解图像、视频、文本等多元信息,并形成统一的认知框架。业界主流存在两种技术路线:以DiT(Diffusion Transformer)为代表的生成式架构,在文生图等专项任务中表现突出;而以智源Emu系列为标杆的"原生多模态"架构,则致力于构建从底层统一的通用模型。智源研究院院长王仲远在发布会上明确指出,EMU3.5的诞生标志着AI正式进入"多模态世界学习"的全新时代,并开创性地确立了多模态规模化(Scaling)的第三种范式。从一年前验证技术可行性的Emu3,到如今宣称"开启新纪元"的EMU3.5,智源团队究竟攻克了哪些行业痛点?其背后蕴含的技术哲学又将如何重塑AI产业的发展格局?
突破效率瓶颈:从理论统一到工程落地的跨越
构建"大一统"的多模态模型始终是AI领域的核心挑战。行业普遍采用的"拼接式"方案,即组合独立训练的理解模型与生成模型,往往面临模态间"语义鸿沟"的融合难题。智源团队从Emu3开始就选择了更为彻底的技术路径——基于统一自回归架构的"原生多模态"方案。
如上图所示,发布会现场重点展示了EMU3.5的"原生多模态"技术理念。这一架构选择体现了智源团队从根本上解决模态融合问题的决心,为理解多模态AI的技术演进提供了直观视角。
自回归架构作为大语言模型的技术基石,其核心机制是"Next-Token Prediction"(下一个符号预测)。智源创新性地将这一机制扩展至多模态领域,将文本、图像、视频等所有类型数据统一转化为离散符号(Token)进行预测。这种设计实现了"图像-文本-视频"的理论统一,具有极致的架构简洁性。然而,这一选择在过去一年中遭遇了严峻的现实挑战——推理效率低下。当生成图像时,模型需逐个Token串行输出,如同"像素级打印",较Diffusion模型的并行生成方式慢数个数量级。缺乏工程效率的理论优势,在实际应用中难以落地,因此效率优化成为EMU3.5的首要攻关目标。
为解决这一难题,EMU3.5团队研发了名为"DiDA(Discrete Diffusion Adaptation,离散扩散自适应)"的创新技术。这一混合推理框架使自回归模型能够在推理阶段并行预测大规模Token,从根本上改变了串行生成的低效模式。实测数据显示,该技术在保持生成质量的前提下,将图像生成速度提升近20倍,使自回归架构首次具备与顶尖闭源扩散模型抗衡的工程效率。这一突破不仅补齐了原生多模态架构的致命短板,更为后续规模化应用扫清了关键障碍。
确立第三范式:多模态规模化的技术革命
在人工智能领域,"Scaling Law"(规模定律)被视为过去十年最重要的技术发现——通过持续增加模型参数、训练数据和算力投入,模型性能呈现可预期的提升。大语言模型的成功正是这一理念的最佳印证,但多模态领域因技术路线混乱,始终未能建立清晰的规模化路径。
EMU3.5在解决效率问题后,迅速启动多模态规模化验证。从技术参数对比可见:模型参数量从Emu3的80亿(8B)跃升至340亿(34B),增幅超4倍;视频数据训练时长从15年激增至790年,提升幅度超过50倍。这种参数与数据的同步扩张,带来了模型能力的全方位提升,也为"第三种Scaling范式"的提出奠定了实践基础。
如上图所示,该对比图表清晰呈现了Emu3到Emu3.5的关键技术指标跃升。这种量化进步不仅验证了多模态规模化的可行性,更为行业提供了可复制的技术演进路线图,帮助开发者理解参数、数据与性能之间的关系。
王仲远院长在发布会上阐释了"第三种Scaling范式"的三大核心特征:其一,架构统一性,基于自回归架构实现文本、图像、视频的原生统一处理;其二,设施复用性,可直接利用现有LLM训练基础设施,大幅降低多模态模型的规模化门槛;其三,强化学习适配性,首次在多模态领域实现大规模强化学习(RL)应用,将LLM领域成熟的RLHF技术迁移至多模态场景。
这种新范式的核心价值在于"可预期性"——通过可复现的规模化路径持续提升模型能力。值得注意的是,当前34B的参数规模相较LLM动辄万亿的体量仍显不足,而790年的视频数据量仅占互联网公开视频资源的1%不到。这意味着EMU3.5的性能天花板远未触及,未来通过持续的参数扩张与数据积累,模型能力有望实现指数级增长。
重构学习目标:从符号预测到世界建模的认知跃迁
如果说效率优化与规模化路径解答了"如何做"的问题,那么EMU3.5在学习目标上的革新则回应了"学什么"这一根本命题。智源团队在发布会中反复强调"第一性原理",王仲远院长以两岁儿童学习串糖葫芦的过程为例:儿童通过观察视频中的动作示范,在现实世界中不断尝试、修正,最终掌握这项技能。这一案例揭示了人类认知的本质——学习始于对物理世界的视觉观察,而非文本符号。
EMU3.5正是遵循这一认知规律,将模型目标从Emu3的"Next-Token Prediction"(下一个符号预测)升级为"Next-State Prediction (NSP)"(下一个状态预测)。这一转变意味着模型不再局限于机械地预测像素或文字符号,而是致力于理解事物背后的因果关系与物理规律,预测世界的逻辑演进状态。
基于这一理念,智源团队重新定义了"世界模型"的内涵。王仲远院长指出,真正的世界模型核心在于"对物理世界因果关系、时空规律的建模能力",而非简单的视频生成。以"桌边咖啡杯"为例:普通视频生成模型能逼真呈现"杯子掉落、咖啡洒出"的动态过程,而世界模型首先需要判断"杯子放置位置存在坠落风险"这一状态,进而预测"杯子可能掉落"的趋势,最终在接收到"拿起咖啡杯"的指令时,规划出符合物理规律的行动路径。
EMU3.5展现出的多项能力印证了这一认知升级:在意图规划任务中,输入"如何做芹菜饺子",模型输出的不是孤立图片,而是步骤清晰的图文并茂指南;在动态推理测试中,模型能根据图案规律,准确推断出"?"处应填的红色方块;在时空转换任务中,可将建筑正面图转换为符合三维空间关系的俯视图。这些能力背后,是模型对物理规则、逻辑关系和时空结构的深度理解。
这种"状态预测"能力直指人工智能的终极应用场景——具身智能(机器人)。当前具身智能领域面临的最大瓶颈是真实世界训练数据的匮乏,而EMU3.5通过世界建模能力,可生成海量高质量的仿真训练数据。在"叠衣服"演示中,模型仅通过一句指令,就能自主规划任务流程,生成机器人完成整套折叠动作的精确序列。王鑫龙博士透露,利用EMU3.5的世界模型,机器人在未知场景中的任务成功率可从0%直接提升至70%,这表明EMU3.5正在扮演具身智能"大脑"的角色,提供理解、规划与泛化的核心智能。
EMU3.5的技术突破呈现清晰的递进关系:首先通过DiDA技术解决原生多模态架构的效率瓶颈,以此为基础开启多模态规模化进程,验证第三种Scaling范式的可行性。而这一系列技术创新的最终目标,是实现从"预测符号"到"预测状态"的认知跃迁,使AI真正掌握世界的物理规律与因果关系,为通用人工智能的实现铺平道路。
据了解,智源研究院已在技术报告中详细披露EMU3.5的技术细节,并计划在未来开放模型源码。这一举措有望加速多模态AI的产业化进程,推动具身智能、智能创作、AR/VR等领域的技术革新。EMU3.5的发布不仅标志着中国AI企业在基础研究领域的重大突破,更为全球多模态技术发展提供了全新的技术范式与发展路径。随着这一技术路线的不断成熟,我们或许正在见证通用人工智能黎明的到来。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



