“Sora的出现不是偶然,而是经过长期积累、反复试错及用户反馈的必然。”
OpenAI尝试过递归网络、生成对抗网络、自回归Transformer及扩散模型。最终诞生了Diffusion Transformer。其充分利用了大语言模型Token的好处,让像素也能够被预测(Patches)。Sora的诞生不亚于2023年ChatGPT的出现,因为我们的世界是一个五彩斑斓的图像和视频组成。Sora通过社区和生态让大模型更进一步贴近于终端用户。
你能手撕Sora的Diffusion Transformer (DiT)算法吗?✍️

如果你看懂了的话就【点个赞】吧。
OpenAI 的 Sora 是基于 William Peebles 和 Saining Xie 在 2023 年开发的 Diffusion Transformer (DiT)。
DiT 如何运作?我们来一起揭秘吧!
-- 目标 --
Sora是由文本提示和一系列扩散步骤生成视频。
-- 实现过程 --
[1] 输入
↳ 视频
↳ 提示:“sora is sky”
↳ 扩散步骤:t = 3
[2] 视频 → patch
↳ 将所有帧中的所有像素划分为 4 个时空patch
[3] 视觉编码器: 像素 🟨 → 潜在特征向量 🟩
↳ 将patch与权重和偏差相乘,接着使用ReLU激活
↳

本文详细介绍了OpenAI的Sora项目,特别是其基于DiffusionTransformer的视频生成技术,通过自注意力机制和大语言模型的能力,构建连续的隐空间生成视频。OpenCSG作为支持者,推动大模型生态社区的发展。
最低0.47元/天 解锁文章
3691

被折叠的 条评论
为什么被折叠?



