sora技术报告Video generation models as world simulators

yang_daxia

于 2025-04-02 10:34:35 发布

阅读量536

点赞数 10

分类专栏： diffusion 文章标签： sora

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yang_daxia/article/details/146934561

版权

diffusion 专栏收录该内容

4 篇文章

订阅专栏

图片和视频同时训练，latent code的方式、基础机构transformer，text条件的diffusion模型
支持不同的时长、分辨率、比例。分钟级别的生成

视觉数据转化为patchs

类似llm中的文字token

在这里插入图片描述

Video compression network

即encoder，将视频压缩为latent 维度

Spacetime latent patches

时空的隐patches，即视频压缩后的结果。图片可以看出单帧的视频

Scaling transformers for video generation

sora使用的是基于transformer的diffusion模型。transformer可以很好的scale，随着scale的增加，生成的效果越来越好
在这里插入图片描述

Improved framing and composition

使用视频的原始分辨率进行训练，有助于好看的构图生成。如果crop为正方形，效果下降。
在这里插入图片描述

Language understanding

sora参考了DALL*3对视频生成文本描述的方式。
专门训练了一个视频文本描述模型
使用GPT将用户的短prompt扩充为复杂的长prompt，提升生成效果

Prompting with images and videos

在文字prompt的基础上，还可以增加图片、视频的参考。适配多种生成任务

让图片动起来
扩展视频
sora结合Sdedit，可以对视频进行编辑，比如风格转换，环境转换
- 连接两个视频，对两个视频的内容做插值
仿真能力：3d场景一致性、时间一致性、和世界交互、仿真数字世界

讨论

交互生成比较差，如玻璃碎、吃东西

整个技术报告主要是功能介绍。技术细节几乎没有。

博客等级

码龄7年

214
原创

484
点赞

1057
收藏

423
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance论文阅读

下一篇：: videoLDM:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models论文阅读

最新评论

论文阅读VACE: All-in-One Video Creation and Editing
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
git 常用功能，误删，版本回退等
优快云-Ada助手: 如何在 Git 中处理子模块？
videoLDM:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models论文阅读
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance论文阅读
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
LDM——High-Resolution Image Synthesis with Latent Diffusion Models论文阅读
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yang_daxia 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。