开放传神(OpenCSG)手撕Sora的Diffusion Transformer (DiT)算法

本文详细介绍了OpenAI的Sora项目,特别是其基于DiffusionTransformer的视频生成技术,通过自注意力机制和大语言模型的能力,构建连续的隐空间生成视频。OpenCSG作为支持者,推动大模型生态社区的发展。

“Sora的出现不是偶然,而是经过长期积累、反复试错及用户反馈的必然。”

OpenAI尝试过递归网络、生成对抗网络、自回归Transformer及扩散模型。最终诞生了Diffusion Transformer。其充分利用了大语言模型Token的好处,让像素也能够被预测(Patches)。Sora的诞生不亚于2023年ChatGPT的出现,因为我们的世界是一个五彩斑斓的图像和视频组成。Sora通过社区和生态让大模型更进一步贴近于终端用户。

你能手撕Sora的Diffusion Transformer (DiT)算法吗?✍️

图片

如果你看懂了的话就【点个赞】吧。

OpenAI 的 Sora 是基于 William Peebles 和 Saining Xie 在 2023 年开发的 Diffusion Transformer (DiT)。

DiT 如何运作?我们来一起揭秘吧!

-- 目标 --

Sora是由文本提示和一系列扩散步骤生成视频。

-- 实现过程 --

[1] 输入

↳ 视频

↳ 提示:“sora is sky”

↳ 扩散步骤:t = 3

[2] 视频 → patch

↳ 将所有帧中的所有像素划分为 4 个时空patch

[3] 视觉编码器: 像素 🟨  → 潜在特征向量 🟩

↳ 将patch与权重和偏差相乘,接着使用ReLU激活

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值