智源发布悟界・Emu3.5:开启多模态世界大模型新纪元,定义AI第三条Scaling路径...

智源发布悟界・Emu3.5:开启多模态世界大模型新纪元,定义AI第三条Scaling路径

【免费下载链接】Emu3.5 【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5

北京智源人工智能研究院(BAAI)今日正式推出多模态系列模型的里程碑之作——悟界・Emu3.5。这款被定位为"多模态世界大模型"(Multimodal World Foundation Model)的全新系统,不仅实现了模型能力的跨越式升级,更开创性地提出了人工智能领域继语言预训练、推理与后训练之后的第三条Scaling范式——"多模态Scaling范式"。通过对源自互联网视频的超10万亿多模态Token(累计时长约790年)进行端到端预训练,Emu3.5成功构建起对现实物理世界动态规律的内在认知体系,其原生世界建模能力催生出长时程视觉指导、复杂图像编辑、世界探索及具身操作等突破性功能,重新定义了多模态生成模型的技术边界。

悟界・Emu3.5采用极简架构设计,基于340亿参数的稠密Transformer模型,继承并发展了Emu3的"原生多模态"理念。与传统多模态模型依赖LLM作为基底、需将非文本模态转换为文本处理的"多模块"模式不同,Emu3.5创新性地将模型目标统一为"下一状态预测"(Next-State Prediction),实现了文本、图像、视频三种模态在底层架构的深度融合。这种架构特性赋予模型生成交错视觉-语言输出的独特能力:面对用户指令时,系统可自然交替生成文字段落与图像内容,形成逻辑连贯的多模态响应。

这一核心能力使Emu3.5在两类创新任务中展现出卓越性能:在视觉叙事(Visual Narrative)领域,模型能创作图文并茂的连贯故事序列——从牛顿与索尼克在森林相遇引发速度与引力的跨界挑战,到角色间的深度交流思考,直至月光下共同仰望星空的情感升华,全程保持情节逻辑与视觉风格的高度统一;在视觉指导(Visual Guidance)任务中,系统可生成分步骤教程,例如解答"如何绘制猫咪"时,能同步提供从轮廓勾勒到细节完善的可视化步骤说明,标志着多模态模型从单一任务执行者向跨模态创造主体的关键进化。

支撑这些能力的是一套精密设计的四阶段训练体系。在大规模预训练阶段,模型首先在10万亿Tokens基础数据上完成世界规律学习,继而在3万亿高质量、高分辨率标注数据上实现能力增强,训练过程中验证集分布外任务损失的持续下降,证实了模型泛化能力的自然涌现。监督微调阶段则通过1500亿样本的多任务数据集,构建统一交互接口,使模型掌握多样化指令的理解与执行能力。创新性的大规模多模态强化学习环节,通过多维度奖励系统(涵盖美学质量、图文对齐度、叙事连贯性等指标)在统一奖励空间中优化,有效避免"奖励欺骗"现象。针对自回归模型的速度瓶颈,团队提出的离散扩散自适应(DiDA)技术,将单图生成速度提升近20倍,在保持生成质量的同时,使自回归模型首次具备与顶级闭源扩散模型抗衡的推理效率。

DiDA技术的核心突破在于将扩散模型思想迁移至离散Token空间,通过将单向顺序预测转化为并行双向去噪过程,成功弥合了自回归模型可控性与扩散模型效率间的技术鸿沟。在实测中,Emu3.5在图像编辑任务上达到与谷歌Gemini-2.5-Flash-Image(Nano Banana)相当的性能水平,在文本渲染精度与交错内容生成任务上则实现显著超越。其世界探索能力可生成虚拟环境中保持几何、语义与外观一致性的连续移动视觉序列,具身操作任务能将复杂机器人操作(如衣物折叠、精准倒水)分解为带语言指令与关键帧图像的子任务序列,达到与谷歌Genie等前沿世界模型比肩的技术高度。

作为"世界模型的基础模型",Emu3.5为具身智能发展提供了关键支撑。通过生成无限多样化的虚拟环境与任务场景,系统解决了具身智能领域高质量数据匮乏的行业痛点,同时产出从高层目标到具体操作的分步规划数据,为通用机器人系统的复杂任务理解提供数据基础。这种能力源于智源研究院对AI技术演进的前瞻性判断——大模型正加速从数字世界迈向物理世界,而Emu3.5通过"下一状态预测"构建的时空规律、物理因果认知体系,恰为机器人自主导航、精细操作与复杂决策提供了底层能力支撑。

尽管取得显著突破,技术报告仍坦诚指出当前局限:视觉分词器的压缩效率存在优化空间,DiDA技术的加速潜力尚未完全释放,新型能力评估需建立更系统的基准体系。作为开源项目,Emu3.5的代码仓库已托管于https://gitcode.com/BAAI/Emu3.5,研究团队正开放内测申请,致力于为全球AI社区提供探索多模态世界建模的强大基座。随着技术迭代与社区共建,这款融合原生多模态架构、海量视频训练数据与创新加速技术的世界大模型,有望推动人工智能向更接近人类自然学习方式的方向持续进化,为构建真正理解物理世界的通用智能系统奠定基础。

【免费下载链接】Emu3.5 【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值