1. 简介
在2025年消费电子展(CES)上,NVIDIA发布了全新的Cosmos平台,旨在加速物理人工智能(AI)系统的开发,尤其是自主驾驶车辆和机器人。该平台集成了生成式世界基础模型(WFM)、视频标记器、安全防护机制以及一个加速的数据处理管道,这些功能帮助开发者在减少对真实世界数据依赖的情况下创建和优化AI模型。
NVIDIA首席执行官黄仁勋在展会上表示:“机器人技术即将迎来像ChatGPT那样的转折时刻。与大型语言模型一样,世界基础模型是推动机器人和自主驾驶车辆发展的核心,但并非所有开发者都有能力和资源来训练自己的模型。我们创建Cosmos就是为了让物理AI的开发更加普及,让每个开发者都能接触到通用机器人技术。”
Cosmos模型可以根据文本、图像和传感器数据生成基于物理的高清视频,使其适用于视频搜索、合成数据生成和强化学习等应用。开发者能够定制模型以模拟工业环境、驾驶场景以及其他特定用例。Agility Robotics的首席技术官Pras Velagapudi指出:“数据稀缺性和变异性是机器人环境成功学习的关键挑战。Cosmos的文本、图像和视频到世界的能力使我们能够生成和增强各种任务的场景,从而在不需要过多昂贵的真实数据捕获的情况下训练模型。”
目前,多家主要的机器人和运输公司,包括Agile Robots、XPENG、Waabi和Uber,已经开始采用Cosmos进行AI开发。Uber首席执行官Dara Khosrowshahi表示:“生成式AI将驱动未来的出行,既需要丰富的数据,也需要强大的计算能力。通过与NVIDIA的合作,我们有信心帮助加速安全、可扩展的自主驾驶解决方案的进程。”
官方网站:Deep Imagination Research | NVIDIA
-
-
2.生成效果
可在官网查看完整视频
-
-
3.论文详解
摘要
物理AI(Physical AI)是一个配备了传感器和执行器的AI系统:传感器允许它观察世界,执行器允许它与世界交互并修改世界。如我们所熟知的自动驾驶。
虽然人工智能的几个领域在最近十年里由于数据和计算的扩展而取得了显著的进步,但物理人工智能只取得了较少的进步。这在很大程度上是因为扩展物理AI的训练数据更具挑战性、更难获得,因为所需数据必须包含交错的观察和动作序列。这些行为扰乱了物理世界,并可能对系统和世界造成严重损害。
研究者们希望创建一个强大的基础平台,专门用于支持和促进物理人工智能系统的发展。物理AI可以在这种平台进行模拟实验,我们称其为:世界基础模型(World Foundation Model,WFM)。世界模型是一个物理世界的数字孪生模型,物理人工智能可以与之安全地交互,它一直是人们长期寻求的各类问题的解决方案。世界模型将对开发者提供的帮助包括:
- 策略评估:评估物理AI系统中策略模型的质量。使用WFM,构建者可以在不可见的环境中部署策略模型。WFM可以帮助开发人员快速排除无效策略,并将物理资源集中在少数有希望的策略上。
- 策略初始化:一个经过良好训练的WFM可以作为策略模型的良好初始化。这有助于解决物理AI中的数据稀缺问题。
- 策略训练:与奖励模型配对的WFM可以是物理世界的代理,以在强化学习设置中向策略模型提供反馈。通过与WFM的交互,Agent可以获得解决任务的熟练度。
- 规划或模型预测控制:物理AI可以根据整个仿真结果执行最佳动作序列,如规划算法或滚动时域方式,如模型预测控制。世界模型的准确性上限将决定这些策略的性能。
- 合成数据生成:WFM可用于生成用于训练的合成数据。
通过这个平台,物理AI的开发者可以更专注于创新和优化他们的系统,而不必从头开始解决所有基础问题。这将加速物理AI技术的发展,推动其在各个领域的应用和普及。
在本文中,作者介绍了用于构建物理AI的Cosmos平台,这是一个专门用于机器人、自动驾驶等领域的世界模型,其中的观察是以视频的形式呈现的,可以以形式存在输入扰动,为物理AI训练提供帮助。
-
世界基础模型
世界模型的基本形式:设是从时间0到t的对真实的世界的视觉观察的序列。
是世界模型的扰动。如图所示,WFM是一个模型,它基于过去的观测值和当前的扰动来预测未来时间t+1的观测值
。在图中的例子中,
是一个RGB视频,而
是一个可以采取多种形式的扰动,如可以是物理人工智能采取的操作、随机扰动、扰动的文本描述等。
当前的Cosmos:Cosmos由几个主要组件组成:视频管理器(video curator)、视频tokenizer、预训练的世界基础模型、世界基础模型后训练样本(world foundation model post-training samples)和护栏(guardrail)。
- 视频管理器:作者开发了一个可扩展的视频数据管理管道。每个视频都被分割成单独的镜头,而不改变场景。然后对剪辑应用一系列过滤步骤,以定位用于训练的高质量和动态信息丰富的子数据集。然后使用VLM对这些高质量镜头进行注释。然后,作者进行语义重复数据删除,以构建一个多样但紧凑的数据集。
- 视频tokenizer:作者开发了一系列不同压缩比的视频tokenizer。这些token是因果关系,即当前帧的token的计算不基于未来的观察。
- WFM的预训练:作者探索了两种可扩展的方法来构建预训练的世界基础模型:扩散模型和自回归模型。
- 对于基于扩散的WFM,预训练包括两个步骤:1)Text2World生成预训练和2)Video2World生成预训练。具体来说,作者训练模型根据输入的文本提示生成视频世界。然后对其进行微调,以根据过去的视频和输入文本提示生成未来的视频世界,作者将其称为Video 2 World生成任务。
- 对于基于自回归的WFM,预训练由两个步骤组成:1)原版的next-token生成和2)文本条件的Video 2 World生成。作者首先训练模型,以根据过去视频生成的未来的视频世界。然后,作者对其进行微调,以根据过去的视频和文本提示生成未来的视频世界。
- 世界基础模型后训练样本:展示了预训练的WFM在几个下游物理AI应用程序中的应用。
- 护栏:为了安全使用基础模型,作者开发了一个护栏系统,其中有害的输入和输出被阻止。
-
数据
数据集
作者使用专有的视频数据集和公开的开放域互联网视频来训练我们的模型。作者的目标是帮助物理AI开发人员。为此,作者策划了视频训练数据集,以涵盖各种物理AI应用程序,并针对以下视频类别:
- 驾驶(11%)
- 手部运动和物体操作(16%)
- 人体运动和活动(10%)
- 空间意识和导航(16%)
- 第一人称视角(8%)
- 自然动力学(20%)
- 动态摄像机移动(8%)
- 合成渲染(4%)
- 其他(7%)。
这些视频提供了不同的视觉对象和动作的广泛覆盖。它们的多样性提高了WFM的泛化能力,并帮助模型处理不同的下游任务。
总的来说,作者积累了大约2000万小时的原始视频,分辨率从720p到4k。然而,大量的视频数据要么是语义冗余的,要么不包含用于学习世界物理的有用信息。因此作者设计了一系列数据处理步骤,以找到原始视频中最有价值的部分进行训练。
数据处理管道
作者的管道由5个主要步骤组成:1)分割,2)过滤,3)注释,4)重复数据删除和5)分片。每一步都是量身定制的,以提高数据质量并适应模型训练的要求。
分割
它将原始视频作为输入,并生成每个镜头的开始和结束帧索引。
- 使用镜头边界检测算法分割图片
- 短于2秒的剪辑将被丢弃,因为它们可能是镜头过渡或视觉效果。
- 将长度超过60 s的剪辑将被一步拆分,以使其最大长度为60 s。
镜头边界检测是一个经典的计算机视觉问题。现有的方法基于视觉特征空间的变化来检测镜头边界,但它们在如何从视频帧中学习视觉特征方面不同。作者在下表中评估了该任务的几种算法。
尽管TransNetV2和AutoShot在现有数据集上的表现更好,但作者发现TransNetV2在更具挑战性的镜头变化上表现更好。使用端到端神经网络(即,TransNetV2)还允许作者通过利用现代GPU进行加速来提高拆分的吞吐量,因此作者使用TransNetV2作为镜头边界检测算法。
编码:
- 作者将每个视频片段重新编码为一致的高质量mp4格式。这简化了后续的数据管理过程。通过统一的视频编解码器,作者用于模型训练的数据加载器的稳定性和效率也大大提高。
- 作者使用高比特率的h264_nvenc编解码器,并使用具有快速运动和高频纹理的视频对作者的设置进行压力测试,以确保没有可感知的视觉退化。
- 使用PyNvideoCodec替换ffmpeg进行视频流转码,可以提高加速器利用率,并实现最大的吞吐量提升(0.3702 vs. 0.1026)。作者只保留ffmpeg用于音频混音,并使用PyNvideoCodec来更好地利用GPU中的计算能力。
过滤
从分割步骤产生的视频剪辑是嘈杂的,具有覆盖各种主题的巨大差异和不同的质量。作者设计的过滤步骤如下:
- 删除视频剪辑的视觉质量不能满足最低要求的
- 选择高质量的、适合微调的视频剪辑,
- 选择可用于构建WFM的、定制的数据。
运动过滤
在运动过滤中有两个主要目标:
- 去除静态或具有随机、突然相机运动(通常来自手持相机)的视频,
- 为视频打上不同相机运动类型的标记(例如,摇摄、缩放、倾斜等),其可提供额外信息以指导模型训练。
作者建立了一个轻量级的运动过滤分类器。分类器的输入是从视频剪辑中提取的运动矢量或光流序列。该分类器基于ViT架构,并使用标记的视频进行训练。作者经过实验发现,基于NVIDIA TensorRT加速光流估计(NVIDIA TensorRT-accelerated optical flow estimation)构建的分类器效果最佳,可为运动过滤提供高分类精度。
视频质量过滤
作者考虑两个标准,失真和外观质量,用于基于视觉质量的过滤。
- 首先,作者移除具有失真的视频剪辑,例如伪影、噪声、模糊、低清晰度、过度曝光、曝光不足等。使用DOVER给出每个剪辑的感知质量分数,并且作者使用该分数来移除在底部15%中的剪辑。
- 第二,过滤掉具有低外观质量的视频剪辑。作者将图像美学模型(image aesthetic model)应用到视频片段的部分采样帧上。然后设置了一个保守的阈值,即,3.5,因为美学对物理AI来说不太重要。
文本叠加过滤
作者的目标是学习世界的物理学。删除包含此类过多文本的视频至关重要。不过请注意,这里关注的是在后期处理中添加的文本,而不是创建视频的原始场景中的文本,例如驾驶视频中的街道名称。
作者训练了一个基于MLP的二值分类器来检测这类视频。分类器的输入是使用InternVideo2提取的视频embedding。作者使用专有的VLM来构建训练集,以标记正面和负面视频。
视频类型过滤
为了调整训练数据分布并过滤掉不需要的视频类型,作者训练了一个分类器,用输出类别来标记每个视频片段。作者通过排除可能导致生成质量差或不切实际的动态的特定视频类型(例如抽象视觉模式,视频游戏画面,动画内容等)以及对不太重要的类别进行下采样(例如,自然或风景视频)来细化数据。
由于缺乏相关数据集,作者利用专有的VLM为分类器创建训练和评估数据。对于每个视频剪辑,作者用八个均匀采样的帧提示VLM,并查询最合