智源悟界·Emu3.5横空出世:NSP范式引领多模态世界模型新突破
【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5
2024年金秋时节,智源研究院向世界推出了全球首个原生多模态世界模型悟界·Emu3,该模型凭借单一的下一个token预测机制,无需依赖扩散模型或组合方法,便实现了图像、文本、视频的一体化处理。时隔一年,智源研究院再次重磅发布悟界·Emu3.5,这款升级之作在"Next-Token Prediction"范式的基础上,创新性地模拟人类自然学习方式,通过自回归架构实现了对多模态序列的"Next-State Prediction (NSP)",从而具备了可泛化的世界建模能力。
智源研究院院长王仲远指出,世界模型的关键在于对下一个时空状态的准确预测,这种预测能力对于具身智能而言不可或缺,并且其应用范围并不局限于视频或图像形式。当人类置身于真实世界场景中时,会自然而然地形成多模态理解(例如看到桌边的咖啡杯会预判其掉落的风险),而机器人在执行相关操作时则需要精准把控每一个细节。
Emu3.5拥有三大显著特性:其一,具备从意图到规划的能力,能够理解高层级的人类意图并生成详尽的行动路径;其二,实现动态世界模拟,将理解、规划与模拟无缝融合,可预测物理动态及时空演化过程;其三,能够作为泛化交互的基础,其涌现的因果推理能力为AI与环境的交互提供了认知支撑。
如上图所示,该图清晰呈现了从Emu3到Emu3.5的技术演进路径,包括训练数据量从15年视频时长跃升至790年、推理速度实现20倍提升以及新增DiDA加速和强化学习模块等核心能力升级。这一技术演进充分体现了Emu3.5在多模态世界模型领域的不断突破,为读者直观展示了模型性能的跨越式发展。
关键技术革新
-
原生多模态输入输出架构 Emu3.5采用自回归设计,成功实现了多模态数据的大一统,无需借助模态适配器或任务特定头,就能直接处理和生成交错的视觉-文本序列。其预训练过程基于13万亿tokens的两阶段端到端训练,第二阶段着重提升了视觉分辨率的多样性与数据质量,涵盖了6300万条视频(总时长达到790年),广泛覆盖教育、科技等多个领域,有效捕捉了时空结构与因果关系。
-
大规模强化学习训练方法 在多模态领域首次成功落地自回归架构下的强化学习技术,构建了一个包含通用、任务特异性和统一性奖励的综合系统。通过多模态强化学习,模型能够统一处理复杂的文生图、图像编辑等任务,例如可以精准呈现"倒水"等动作,实现交互式场景探索,同时平衡多任务质量标准以避免过拟合问题。
-
离散扩散适配(DiDA)技术 为解决自回归模型推理速度慢的难题,Emu3.5提出了DiDA技术,将序列解码转换为双向并行预测。该方法基于预训练模型,将离散扩散公式扩展至视觉token,通过一次性初始化图像token序列并借助离散去噪步骤进行优化,实现了约20倍的推理加速,且无任何性能损失,有效解决了原生多模态成本高的痛点。
性能表现与应用前景
Emu3.5在图像生成与编辑方面的表现可与Gemini 2.5 Flash Image(Nano Banana)相媲美,而在交错生成任务上则展现出更优的性能。其340亿参数规模仅使用了全互联网1%的公开视频数据,未来通过拓展数据量、扩大参数规模以及采用MOE架构,有望实现进一步提升。目前,Emu3.5已达到产品级水准,即将向行业开放,为多模态Scaling范式提供关键支撑,推动人工智能在多模态领域的持续发展。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



