深入了解 Sora 的扩散变换器（DiT）手工分析 ✍︎

解析Sora的DiT视频生成机制

原创于 2025-11-29 00:00:01 发布 · 334 阅读

7 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

771 篇文章

订阅专栏

原文：towardsdatascience.com/deep-dive-into-soras-diffusion-transformer-dit-by-hand-%EF%B8%8E-1e4d84ec865d?source=collection_archive---------3-----------------------#2024-04-02

探索 Sora 最先进视频背后的秘密

https://medium.com/@srijanie.dey?source=post_page---byline--1e4d84ec865d--------------------------------https://towardsdatascience.com/?source=post_page---byline--1e4d84ec865d-------------------------------- Srijanie Dey, PhD

·发布于 Towards Data Science ·12 分钟阅读·2024 年 4 月 2 日

–

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5fbe86c67353e44883ee9150b7907a20.png

图片来源：作者

“在古老的 DiTharos 大陆，曾经有一个传说，叫做 Sora。一个象征着无限潜力的传说，涵盖了天空的辽阔与宏伟。”

当它展开色彩斑斓的翅膀，飞翔在辽阔的天空，光线在它引人注目的身体上反射时，人们能听到“Sora 就是天空”的声音回响在天际。使它成为传说的，不仅仅是它那宏大的体量，还有它驾驭散落在旋云中的光元素的力量。凭借强大的力量，Sora 凭一旋所创造的魔法，堪称一绝！

他们说，Sora 依然存在，日复一日磨砺技艺，变得愈加强大，准备在黄金时刻翱翔。当你今天在天空中看到一抹深红，你会知道那是传说的一颗星星正飞入光明的领域！

这是我讲给儿子听的一个关于远方土地上神话般的龙的故事。我们称它为“Sora 的传说”。他非常喜欢这个故事，因为 Sora 既巨大又强大，能够照亮天空。当然，现在他还不理解变换器和扩散的概念，他才四岁，但他确实明白一个使用光的力量并统治着 DiTharos 的宏伟龙的概念。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a3017fb7070ef36c0941deefb160ee3e.png

图片来源：作者（强大的 Sora 由我的儿子创作——色彩选择和大胆的笔触都是他的作品。）

Sora by Open AI

这个故事与我们世界上 Sora（Open AI 的文本到视频模型）如何在人工智能领域诞生并席卷全球的过程非常相似。从原则上讲，Sora 是由William Peebles 和 Saining Xie 在 2023 年开发的扩散变换器（DiT）。

换句话说，它利用扩散的概念来预测视频，并通过变换器的强大功能实现下一阶段的扩展。为了更好地理解这一点，让我们尝试回答这两个问题：

当 Sora 接收到一个提示词时，它会做什么？
它是如何结合扩散变换器的理念的？

说到 Sora 制作的视频，这是我最喜欢的一部，内容是一只可爱的斑点狗在意大利街头。它的动作多么自然！

视频使用的提示词是：“相机直接面对意大利布拉诺的彩色建筑。一只可爱的斑点狗透过一栋一楼建筑的窗户看外面。许多人在建筑前的运河街道上走路和骑车。”

Sora 是如何做到这一点的？

不再多说，让我们深入了解细节，看看 Sora 如何根据文本提示生成这些超现实的视频。

Sora 是如何工作的？

再次感谢 Tom Yeh 教授精彩的《手工 AI 系列》，我们有了这篇关于 Sora 的精彩文章作为讨论材料。（以下所有图片，除非另有注明，均来自 Tom Yeh 教授的上述 LinkedIn 文章，我已获得他的许可进行编辑。）

那么，我们开始吧：

我们的目标 — 根据文本提示生成视频。

我们给定了：

训练视频
文本提示
扩散步骤 t = 3

对于我们的例子，您能猜到我们的文本提示是什么吗？你猜对了。它是“天空是 Sora”。当扩散步骤 t = 3 时，意味着我们在三步内加入噪声或扩散模型，但为了说明方便，我们将在这个例子中只进行一步。

什么是扩散？

扩散主要指的是粒子散射的现象——想象一下我们如何享受阳光透过云层照射出来的柔和光线。这种柔和的光辉可以归因于阳光穿过云层时发生的散射现象，导致光线向不同方向扩散。

粒子的随机运动推动了这种扩散。这正是图像生成中扩散模型的工作原理。向图像中添加随机噪声，导致图像中的元素偏离原始状态，从而为创造更精细的图像铺平道路。

当我们谈论图像模型中的扩散时，记住的关键概念是“噪声”。

过程从这里开始：

[1] 将视频转换为补丁

在处理文本生成时，模型将大语料库分解成小块，称为 tokens，并使用这些 tokens 进行所有计算。类似地，Sora 将视频分解为更小的元素，称为视觉补丁，以简化工作。

由于我们讨论的是视频，因此涉及的是多帧的图像。在我们的示例中，我们有四个帧。每一个帧或矩阵包含了组成图像的像素。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f4692e227bf767ec00f7bee6b9feb7e1.png

这里的第一步是将这个训练视频转换成如下的 4 个时空补丁：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f6acaf339dcea5ba8aad7eda0a89d8e8.png

[2] 减少这些视觉补丁的维度：编码器

接下来是降维。降维的概念已经存在超过一个世纪了 (小知识：主成分分析，简称 PCA，是由卡尔·皮尔逊在 1901 年提出的)，但它的重要性至今未曾褪色。

Sora 也使用了这个方法！

当我们讨论神经网络时，降维的一个基本思想是编码器。编码器通过设计，将高维数据转换为低维数据，重点捕捉数据中最相关的特征。这样做是双赢：它提高了计算效率和速度，同时算法也能获得有用的数据进行处理。

Sora 使用相同的思路，将高维像素转化为低维的潜在空间。为此，我们将补丁与权重和偏置相乘，再经过 ReLU 激活函数。

注意：

线性变换：输入的嵌入向量与权重矩阵 W 相乘。

然后加上偏置向量 b，

z = Wx + b，其中 W 是权重矩阵，x 是我们的词嵌入，b 是偏置向量。

ReLU 激活函数：接下来，我们将 ReLU 应用到这个中间的 z 上。

ReLU 返回输入与零的逐元素最大值。数学上表示为 h = max{0, z}。

这里的权重矩阵是一个 2x4 的矩阵 [ [1, 0, -1, 0], [0, 1, 0, 1] ]，偏置为 [0,1]。
这里的补丁矩阵是 4x4。

权重矩阵 W 的转置与偏置 b 及补丁相乘，再经过 ReLU，得到的潜在空间仅是一个 2x4 的矩阵。因此，通过使用视觉编码器，“模型”的维度从 4（2x2x1）降到 2（2x1）。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/133c33cc9f5459d066951674310d428e.png

在原始的 DiT 论文中，这个降维是从 196,608（256x256x3）降到 4096（32x32x4），这是一个巨大的降维。想象一下，从 196,608 像素降到 4096 像素——降维了 48 倍！

在这个降维之后，我们进入整个过程中的一个最重要的步骤——扩散。

[3] 通过噪声扩散模型

为了引入扩散，我们将采样噪声添加到前一步得到的潜在特征中，从而找到噪声潜在特征。这里的目标是让模型检测噪声是什么。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9a4857023e2bc12e838a6824b7b12128.png

本质上，这是图像生成的扩散思想。

通过向图像添加噪声，模型被要求猜测噪声是什么以及它的样子。作为回报，模型可以根据它的猜测和从噪声图像中学到的东西，生成一个全新的图像。

它也可以看作是从语言模型中删除一个词，并要求模型猜测被删除的词是什么。

由于训练视频已被减少并加入了噪声，接下来的步骤是利用文本提示来生成符合提示的视频。我们通过使用自适应归一化层来进行条件化。

[4]-[6] 通过自适应归一化层进行条件化

“条件化”本质上意味着我们尝试使用可用的附加信息来影响模型的行为。例如：由于我们的提示是‘Sora 是天空’，我们希望模型关注像天空或云朵这样的元素，而不是过多关注其他概念，如帽子或植物。因此，自适应归一化层可以更好地解释——动态地根据输入数据调整和移动网络中的数据。

什么是缩放和位移？

缩放发生在我们进行乘法运算时，例如我们可能从变量 A 开始。如果我们假设将其与 2 相乘，那么我们得到 2*A，这会将 A 的值放大 2 倍。如果我们将其乘以 1/2，那么值会缩小到 0.5 倍。

位移用加法表示，例如我们可能在数轴上行走。我们从 1 开始，需要移动到 5。我们该怎么做？我们可以加 4，得到 1+4=5，或者我们也可以加一百个 0.04，得到 1+(100*0.04)=5。最终取决于我们是想走大步（4）还是小步（0.04）来达成目标。

[4] 编码条件

为了利用条件，在我们的例子中就是我们用于构建模型的信息，首先我们将其转换为模型能够理解的形式，即向量。