智源悟界·Emu3.5震撼登场:首创“下一个状态预测“范式,引领多模态Scaling新纪元

智源悟界·Emu3.5震撼登场:首创"下一个状态预测"范式,引领多模态Scaling新纪元

【免费下载链接】Emu3.5 【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5

2024年金秋十月,智源研究院向全球发布了开创性的原生多模态世界模型悟界·Emu3,该模型凭借单一的下一个token预测机制,彻底摒弃了传统的扩散模型或组合式方法,成功实现了图像、文本、视频等多模态数据的统一建模。这一突破性成果一经公布,便迅速在全球AI技术社区掀起了热烈讨论的浪潮。

时隔一年,智源研究院再次重磅出击,正式推出悟界·Emu3.5。该模型在原有"Next-Token Prediction"范式的坚实基础上,创新性地模拟人类自然学习的认知过程,通过先进的自回归架构实现了对多模态序列的"Next-State Prediction (NSP)",从而赋予了AI系统前所未有的可泛化世界建模能力。

智源研究院院长王仲远在发布会上强调,世界模型的核心要义在于精准预测下一个时空状态,这种预测能力对于具身智能而言至关重要,并且其应用范围绝不仅限于视频或图像等视觉形式。他进一步解释道,当人类置身于真实世界场景中时,会自然而然地形成多模态理解(例如看到桌沿的咖啡杯会本能预判其掉落风险),而机器人在执行抓取咖啡杯等操作时,则需要对力度、方向等细微参数进行精确把控。正是基于这种对人类认知机制的深刻洞察,Emu3.5实现了从单纯的token预测到复杂状态预测的跨越。

图片为智源研究院Emu3.5模型的关键指标对比图,展示了从Emu3到Emu3.5在视频数据训练总时长、模型参数量、推理速度的提升,并体现了从Next-Token Prediction到Next-State Prediction的范式演进及开启多模态世界大模型新纪元的定位。 如上图所示,该对比图清晰呈现了Emu3与Emu3.5两代模型在核心指标上的显著提升,包括视频数据训练总时长的大幅增加、模型参数量的优化配置以及推理速度的突破性提升。这一可视化对比不仅直观展示了从Next-Token Prediction到Next-State Prediction的范式演进路径,更凸显了Emu3.5作为多模态世界大模型新纪元开创者的行业定位,为读者理解模型的技术跨越提供了清晰的视觉参考。

Emu3.5在各项核心能力上实现了全面且显著的提升,其三大突出特点重新定义了多模态模型的能力边界:首先,在意图理解到规划生成方面,模型能够深度解读高层级的人类意图(例如"如何设计一艘星际飞船"或"如何制作精美的咖啡拉花"),并独立自主地生成详尽、连贯的多步骤行动方案;其次,在动态世界模拟方面,模型在统一的框架内实现了对世界理解、规划与模拟的无缝融合,能够精准预测物理动态变化、时空演化规律以及长时程因果关系;最后,在泛化交互基础方面,模型所涌现出的强大因果推理和规划能力,为AI系统与人类及物理环境进行泛化交互(如具身操控任务)奠定了关键的认知基础。

"我们坚信,Emu3.5很可能开启了AI发展史上的第三个Scaling范式。"王仲远在发布会上郑重指出。

回顾AI发展历程,随着大语言模型的巨大成功,行业探索并确立了语言预训练的Scaling范式,即通过持续提升模型参数量、扩大训练数据规模与增强算力支持,实现模型性能的显著优化。然而,随着文本数据资源逐渐面临枯竭,过去两年行业的研究重点转向了后训练与推理阶段的Scaling范式,这一方向的探索同样成功激发了模型的潜在能力,取得了令人瞩目的成果。但在多模态领域,长期以来始终缺乏一种被广泛认可的成熟Scaling范式。"从Emu3到Emu3.5的演进过程,我们首次实证了多模态领域同样存在类似的Scaling可能性,"王仲远进一步解释道,其核心依据主要包括以下三点:

首先,Emu3.5架构采用了高度灵活的自回归设计,实现了多模态数据的大一统建模,能够大规模复用现有成熟的计算基础设施,显著降低了技术落地的门槛;其次,Emu3.5首次在多模态领域成功落地了自回归架构下的大规模强化学习技术,而该技术在行业内已具备成熟的解决方案,这为多模态大模型的Scaling up提供了关键的技术支撑;最后,从Emu3到Emu3.5,模型性能实现了质的飞跃,目前Emu3.5已达到商业化产品级水准,智源研究院计划在后续阶段向全行业开放该模型的应用接口。

王仲远详细介绍,此次研发团队的核心思路是回归AI发展的第一性原理。这一理念源于对人类学习本质的深刻认知:人类的学习过程并非始于文本,而是从出生伊始,便以视觉为主要起点建立对世界的认知,包括与他人的交流互动、对物理世界运行规律的探索等。当前丰富的视频形态数据,恰好为AI模型学习世界知识提供了理想的载体:通过对海量视频数据的学习,模型能够有效掌握世界的内在运行规律、复杂因果关系、逻辑推理机制以及各类物理常识。

在世界多模态模型的探索道路上,目前市面上的大多数模型仍停留在将"多模态理解"与"多模态生成"进行拆分处理的阶段。其中,多模态理解类模型大多采用组合式架构,例如以大语言模型为基础,先完成语言能力的学习,再叠加多模态学习模块。然而,这种模式存在明显的固有缺陷:模型容易出现"灾难性遗忘现象",其记忆能力不足的问题至今尚未得到妥善解决;同时,智能体(Agent)在处理复杂任务时如何持续优化表现等关键问题,都是企业在实际场景落地过程中必须攻克的难点。

与之形成鲜明对比的是,Emu系列模型采用了先进的自回归架构,使其具备了卓越的可扩展性。在该架构下,模型的Next Token不仅可以是文字Token,还可以是视觉Token,且两种模态的性能均不会受到损失。王仲远特别强调,Emu3.5所具备的强大推理能力和长时序一致性,将为具身智能的发展带来根本性的变革。

相比之下,当前主流的模型架构(如DiT架构)虽然在特定场景中取得了一定的亮眼成果,但其设计本质上限制了模型的泛化能力与任务迁移能力。换言之,这类架构更偏向于针对具体问题的"精巧解决方案",而非能够跨场景、跨模态实现自适应学习的通用智能系统。

在多模态发展方向上,智源研究院坚信,无论是聚焦Emu3.5本身所取得的突破,还是从更长的时间尺度回顾AI发展历程,Emu3.5都代表了一条切实可行的多模态智能发展新路径。

"悟界·Emu3.5是AI大模型领域一项具有里程碑意义的原始创新。它并非单纯的算法层面创新,也不是单一的工程实现突破,而是融合了算法原理、工程架构、数据训练范式与模型思想的综合性创新成果。此类创新恰恰只有智源这样的机构才能够实现——因为智源研究院是一种介于高校与企业之间的独特中间态组织,这种特殊的组织形态,为开展跨维度、多层面的综合性创新提供了必要的制度保障和资源支持。"王仲远在总结Emu3.5的创新价值时如是说道。

Emu3.5的研发成功离不开三大核心技术创新的支撑。具体而言,Emu3.5首先在约13万亿tokens的海量数据上进行了两阶段端到端预训练:第一阶段侧重于基础能力的构建,第二阶段则进一步提升视觉分辨率的多样性、数据质量和标注丰富度,为模型提供更精准的多模态监督信号。这种两阶段训练策略使模型能够在统一的生成框架下自然处理交错的视觉-语言输入,并生成连贯的交错输出。预训练完成后,模型在包含1500亿样本的大规模数据集上进行有监督微调(SFT),以构建统一的多模态生成接口,随后通过大规模强化学习进一步提升模型的多模态推理与生成能力。最后,利用少量(数十亿tokens)SFT和自蒸馏数据,通过自研的DiDA技术实现推理过程的快速适配与高效加速。

首先,在预训练环节,Emu3.5消耗了超过10T Token的海量数据,这一惊人的数据规模主要得益于其高度易拓展的架构设计以及海量长视频数据的有力支撑。这也是Emu3.5与之前版本的主要区别所在:训练数据中长视频内容占据主导地位,而非传统的文字数据。

Emu3.5所使用的视觉-语言交错数据来源于多样化的视频资源,包括开源数据集、公开网络视频以及第三方合作获取的专业视频内容,共计包含约6300万条视频,平均时长达到6.5分钟,累计总时长约790年。这些数据广泛覆盖了教育、科技、娱乐、体育、游戏、旅游、动画等多个领域,全面捕捉了真实世界的动态变化和人类的想象场景。

值得特别关注的是,当前Emu3.5的参数规模仅为340亿,所使用的视频数据累计时长虽已达790年,但这一数据量却仅占全互联网公开视频数据总量的不到1%。这意味着,无论是训练数据量的进一步扩充、模型参数规模的持续增大,还是未来向MOE(混合专家)架构的演化,所有在语言大模型上已被验证有效的Scaling up路径与能力,都有望在多模态领域重新实现并取得突破。

"Emu3.5的训练过程展现出了极佳的稳定性,即便在各类下游未见过场景的验证损失中,也能清晰观察到随着计算量的增加,模型效果持续稳定提升,这一现象有力印证了原生多模态Scaling范式的有效性。"智源研究院研究员王鑫龙补充道。

第二项核心技术创新是大规模原生多模态强化学习的成功应用。

尽管GPT-o1和DeepSeekR1等模型通过强化学习技术极大增强了语言能力,但将该技术应用于更长时序的多模态场景时,会面临诸多独特的挑战。而Emu3.5依托其易拓展的自回归架构与整体范式,能够轻松实现统一多任务的多模态强化学习。

智源团队为此构建了一个包含不同类型奖励机制的综合奖励系统,为多样化的下游任务提供全面统一的指导。该奖励系统具备通用性、任务特异性和统一性三项核心特性,这种多维度的奖励设计确保Emu3.5可以在多种质量标准之间取得平衡,更重要的是,能够有效避免单一奖励机制可能导致的过拟合问题,实现多任务性能的一致提升,同时不会损害单个任务的专项性能。

通过多模态强化学习,Emu3.5能够精准模仿复杂的多模态交互过程,将众多多模态任务统一在相同的交互形式下,既包括复杂的文本生成图像任务,也涵盖具备强推理能力的图像编辑任务(其中文字与图像均为生成内容)。

例如,模型能够精准呈现"一步步拿出手机"、"倒水"等精细动作序列,充分体现了其对现实世界物理规律的深刻理解;此外,模型还能实现交互式场景探索(包括室内、室外、想象或真实场景)及问题操作,这些能力共同定义了下一代原生多模态模型的核心发展方向。

第三项核心技术创新是在推理加速领域取得的实用性突破。

传统的自回归模型相较于扩散模型,在推理速度方面原本存在一定劣势。针对这一问题,智源研究院通过自主研发的DiDa技术,在实现无损预测下一个Token的同时,将推理速度提升了惊人的20倍,最终使自回归架构的模型在性能上能够与Diffusion架构模型相媲美。

DiDa技术是一种轻量级的自适应推理方法,能够在不改变模型文本生成能力的前提下,显著加速自回归图像生成过程。基于预训练的自回归模型,DiDa技术将离散扩散公式创新性地扩展至视觉token领域,使模型能够将图像生成过程从传统的序列解码转换为高效的并行生成。具体而言,DiDa技术在视觉token上实现了离散扩散过程,整个图像token序列可以一次性完成初始化,然后通过一系列离散去噪步骤逐步优化,最终恢复出高质量的目标图像。这种巧妙的设计在不损失输出质量的前提下,实现了推理速度的显著提升。

"以往原生多模态模型的计算成本极高,而此次通过DiDa技术实现的20倍加速,成功将原生多模态的应用成本大幅降低,为模型的商业化落地扫清了重要障碍。"王鑫龙如是评价道。

值得高度关注的是,Emu3.5首次通过纯Token预测方法,实现了可媲美当前闭源系统的最强图像生成能力,而这一卓越能力仅仅是Emu3.5众多图形能力中的一部分。这一突破性成果背后,得益于上述多项核心技术的协同革新,使得Emu3.5在生成性能与推理速度上均能与顶尖闭源系统相抗衡。

智源研究院强调,世界模型的内涵远不止于视频生成,更多的是对整个世界因果关系、时空演化、物理规律的建模能力。

"我们更愿意将悟界·Emu3.5称为多模态世界大模型,因为它同时具备了强大的多模态理解能力和多模态生成能力。它实际上能够深刻理解时空概念、长时序一致性,具备精准的因果推断能力,因此Emu3.5是一个非常独特的模型。可能很难直接将其与任何单一功能的现有模型进行简单比较。"王仲远在总结发言中指出。

王仲远进一步认为,Emu3.5的重大意义在于,它可能开创了一个全新的大模型赛道。"虽然业内对世界模型的概念已有诸多讨论,但人们最初的设想是,我们的人类大脑中应该存在着这样一个内在的世界模型,它能够理解基本的世界运行规律,包括物理常识、时间空间知识等,能够帮助我们解决日常生活中看似非常简单、但对于当前机器人而言却异常困难的问题。Emu3.5的出现,正是朝着实现这一愿景迈出的关键一步。"

随着悟界·Emu3.5的正式发布,AI行业正站在多模态智能发展的全新起点。Emu3.5所开创的"下一个状态预测"范式以及多模态Scaling路径,不仅为多模态大模型的未来发展指明了方向,更为AI系统实现真正的通用智能奠定了坚实基础。我们有理由相信,在不久的将来,随着Emu3.5的开放应用以及更多创新技术的涌现,AI将在具身智能、机器人交互、复杂场景理解等领域取得更加令人瞩目的成就,为人类社会带来前所未有的智能化变革。

会议预告:12月19~20日,AICon 2025年度收官站将在北京隆重举行。在为期两天的会议中,行业专家将深入探讨最热的Agent技术、上下文工程、AI产品创新等前沿话题,与会者将有机会与头部企业与创新团队的技术专家深度交流AI技术的落地经验与前瞻思考。作为2025年的最后一场行业盛会,此次会议内容丰富,不容错过。

【免费下载链接】Emu3.5 【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值