一、简介
Cosmos-Predict2 是 Cosmos 世界基金会模型 (WFM) 物理 AI 生态系统的一个关键分支,专门通过高级世界建模进行未来状态预测。它提供两项强大的功能:用于从文本描述创建高质量图像的文本到图像生成,以及用于从视频输入生成视觉模拟的视频到世界生成。
我们在下图中可视化了 Cosmos-Predict2 的架构。

模型
- Cosmos-Predict2-2B-Video2World:基于视频 + 文本的未来视觉世界生成
- Cosmos-Predict2-14B-Text2Image:文本到图像的生成
- Cosmos-Predict2-2B-Video2World:基于视频 + 文本的未来视觉世界生成
- Cosmos-Predict2-14B-Video2World:基于视频 + 文本的未来视觉世界生成
- Cosmos-Predict2-14B-Sample-GR00T-Dreams-GR1:基于视频 + 文本的未来视觉世界生成,在 GR00T Dreams GR1 数据集上进行后训练

最低0.47元/天 解锁文章
727

被折叠的 条评论
为什么被折叠?



