2025年Sora类视频生成模型架构剖析：时空编码与扩散机制

Sora类视频生成模型架构解析

原创于 2025-12-02 09:10:09 发布 · 666 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#音视频 #架构

王者杯·14天创作挑战营·第8期 5.8w人浏览 94人参与

3.3 Transformer 与 Diffusion Transformer

3.4 视频时空建模基础：3D 卷积与时空 token

5.2 潜空间时空补丁与 token 设计

5.3 位置编码与时空相对关系

6 扩散机制与去噪网络结构

6.1 时空扩散过程的建模视角

6.2 Diffusion Transformer 的时空注意力机制

6.3 Space-Time U-Net 的一体化时空扩散

8.3 扩散时间与训练/推理效率的统一理论

8.4 评测与对齐：从图像到“世界模拟”

9 结语

1 引言

自从 OpenAI 在 2024 年公布 Sora 及其“世界模拟器（world simulator）”技术报告以来，视频生成模型在 2024–2025 年经历了一次几乎爆炸式的跃迁。Sora 通过在视频压缩潜空间上引入时空补丁（spacetime patches），再利用大规模 Diffusion Transformer 进行去噪建模，实现了最长可达一分钟的高保真视频生成，这一能力不仅在视觉质量上逼近真实拍摄，而且在长时一致性和物理场景模拟上远超此前的视频生成系统。(OpenAI) 与此同时，Google 的 Lumiere 采用 Space-Time U-Net 一次性生成整段视频，腾讯/清华的 CogVideoX 使用 3D VAE 压缩时空并结合 Diffusion Transformer，在开源社区里给出了可复现的高质量方案。(Lumiere - Google Research) 这些模型在细节上各不相同，却在架构思想上高度收敛：在连续潜空间上进行扩散建模，以 Transformer 或空间–时间 U-Net 作为去噪主干，利用统一的时空 token 表示连接图像与视频数据，并通过逐步扩展时长和分辨率的渐进式训练策略来控制算力成本。(Yen-Chen Lin)

在这类工作推动下，视频扩散模型不再只是“会动的图片”，而逐渐被视为对现实世界进行粗粒度模拟的“世界模型”组件，能够在长时间跨度内维护物体的三维一致性和对象持久性，并在一定程度上遵循日常物理规律。(OpenAI) 然而，与图像生成模型相比，Sora 类视频模型的内部结构公开信息要少得多：Sora 本身并未发布完整实现细节，更多信息来自技术报告、系统卡片以及社区分析；Lumiere、CogVideoX 等则相对开放，但其论文更偏工程设计与实验结果，缺少对“时空编码 + 扩散机制”这一核心结构的系统理论梳理。(OpenAI)

本文以“2025 年 Sora 类视频生成模型”为对象，试图从理论角度剖析这类模型的共性架构，特别是三大关键技术链条：第一是视频压缩与时空编码，即如何通过 3D VAE 或相关结构将高维视频压缩到潜空间，并在其中构造可被 Transformer 处理的时空 token；第二是扩散机制，即如何在这些时空 token 上定义前向加噪与反向去噪过程，以及如何通过 Diffusion Transformer/Space-Time U-Net 等网络结构高效建模长时依赖；第三是训练与优化策略，包括联合图像–视频训练、重标注（recaptioning）提升文本对齐、进阶采样与噪声调度等。(arXiv)

为了符合理论导向的要求，全文将尽量弱化具体应用产品层面的讨论，而重点放在模型本身的表征形式、数学原理与架构设计动机之上。文章结构安排如下：第 2 章综述与 Sora 类模型相关的视频扩散研究进展；第 3 章从扩散模型、潜空间建模与时空表示三个维度详细介绍基础知识与数学原理；第 4–7 章作为核心内容，依次讨论 Sora 类架构的整体设计、时空编码机制、扩散与网络结构细节，以及训练与优化策略；第 8 章讨论目前仍然开放的理论问题与未来方向，最后在第 9 章给出总结。需要特别说明的是，文中所有涉及具体模型能力、训练范式和结构特征的数据均来源于公开论文、技术报告或系统卡片，不基于未公开猜测。对 Sora 这类未开放源码的系统，我们仅引用官方技术报告与经同行评审的综述中已公开的结构性描述，在超出公开信息之处将明确标注为“合理推断”而非事实。

2 综述相关工作

围绕 Sora 类视频生成模型的研究，可以大致划分为三个谱系：一是扩散模型在视频领域的总体发展，包括 DDPM、DDIM、VDM 等基础理论及其在视频生成上的扩展；二是具体的代表性系统，如 Sora、Lumiere、CogVideoX 等，它们在时空编码、网络主干和训练策略上的关键设计；三是近两年出现的系统化综述工作，对视频扩散模型的结构、训练和评测进行了系统梳理。

在理论层面，2024–2025 年陆续出现了多篇关于视频扩散模型的综述。例如 Melnik 等人在 TMLR 上发表的《Video Diffusion Models: A Survey》系统回顾了视频扩散模型的数学基础、典型架构与时间一致性建模方法，特别是将视频扩散模型划分为基于像素空间与基于潜空间两大类，并讨论了三维 U-Net、时序 Transformer 等不同去噪网络的优劣。(ResearchGate) 另一篇发表于 Artificial Intelligence Review 的综述则从“视频扩散生成”的角度，强调了 VDM、LDM 等典型方法，指出在高维视频空间直接进行扩散往往计算代价巨大，因此通过潜空间压缩（即 Latent Diffusion Models）成为主流路径。(SpringerLink) 这些综述为我们理解 Sora 类模型在理论谱系中的位置提供了重要背景。

在系统层面，OpenAI 的 Sora 是这一波浪潮的核心催化剂。技术报告《Video generation models as world simulators》指出，Sora 首先通过视频压缩网络将视频压缩到低维潜空间，然后在潜空间中将视频拆分为“时空补丁”，使之成为可以输入 Transformer 的 token 序列；在此基础上，Sora 作为一个扩散 Transformer，通过在这些 noisy token 上进行去噪，完成图像与视频的统一生成。(OpenAI) Sora 系统卡进一步明确了其作为扩散模型和 Transformer 主干的核心事实，并强调其“同时看到很多帧”的长时视野是保持对象一致性和长时连贯性的关键。(OpenAI)

与 Sora 相邻的另一个重要代表是 Google 的 Lumiere。Lumiere 提出了 Space-Time U-Net（STUNet）结构，一次性在整个时空体（spatio-temporal volume）上进行扩散去噪，通过空间和时间方向的多尺度下采样与上采样来实现全时长一致生成，而非先生成稀疏关键帧再插帧。(Lumiere - Google Research) 这种设计在理论上减少了“局部时间片之间缺乏全局信息”的问题，使模型更容易维护大范围运动的一致性。

另一方面，CogVideoX 作为大规模开源文本到视频模型，采用 3D VAE 进行时空联合压缩，再以 Diffusion Transformer 作为条件去噪网络，并通过“Expert Transformer”（在不同模态分支使用自适应 LayerNorm）来实现文本与视频潜表示的深度融合。(语义学者) 这类设计既继承了 Sora 在时空 token 化上的思想，又进一步在多模态条件建模上引入结构化的专家分工。

为了直观对比这些系统的能力与结构，我们先给出一个高层面的能力对比表（仅使用各技术报告和论文中公开的数据，不引入具体指标数值比较）：

表1 代表性 Sora 类视频扩散模型能力与结构特征对比

模型	机构	首次公开时间	官方公开最大生成时长 / 分辨率	关键结构要点（公开信息）
Sora	OpenAI	2024–2025	研究报告中展示最长约 1 分钟视频；系统卡中产品版支持最高 1080p、约 20 秒(OpenAI)	视频压缩网络 + 潜空间时空补丁表示；Diffusion Transformer 去噪；联合图像–视频训练；重标注（recaptioning）提升文本对齐(OpenAI)
Lumiere	Google	2024-01	论文示例为约 5 秒（80 帧 @ 16 fps），低分辨率全帧率视频(Lumiere - Google Research)	Space-Time U-Net，一次性在时空体上扩散；基于预训练 T2I 模型；多尺度时空下/上采样确保全时长一致性(Lumiere - Google Research)
CogVideoX	THUDM 等	2024–2025	约 10 秒 @ 16 fps，支持 768×1360 分辨率；部分版本支持 5–10 秒图生视频(arXiv)	3D VAE 同时在空间和时间上压缩；Diffusion Transformer 主干；Expert Transformer + 自适应 LayerNorm 进行文本–视频对齐(语义学者)
Cosmos-1.0	NVIDIA	2025-01	技术报告展示多种分辨率与时长组合，不局限固定长(Yen-Chen Lin)	3D patch tokenization；DiT 主干；EDM 风格训练目标；联合图像–视频训练并采用域特定归一化对齐潜空间分布(Yen-Chen Lin)

可以看到，这几类系统高度共享了一套基础理念：通过 3D 编码器将视频压缩到潜空间中，以时空 patch 或 token 形式统一表示图像与视频，然后在该表示上使用扩散模型完成去噪生成，同时利用 Transformer/Space-Time U-Net 等结构处理长时依赖。(OpenAI) 之后各家工作主要在 token 化细节、文本条件融合方式、训练目标与调度策略等方面展开差异化设计。

3 基础知识与原理

3.1 扩散模型的基本数学框架

扩散模型的核心思想是通过一个前向的“加噪”马尔可夫链逐步将真实数据分布变换为高斯噪声分布，然后训练一个参数化的反向过程，从噪声中逐步“去噪”回数据分布。对视频来说，这一过程在高维视频张量或其潜空间表示上进行。现有综述通常以 DDPM（Denoising Diffusion Probabilistic Models）为起点给出统一形式。(arXiv)

设原始视频样本为 $x_0$ ，记时间步为 $t=1,\dots,T$ 。前向过程定义为：

$$q(x_t \mid x_{t-1}) = \mathcal{N}\bigl(x_t; \sqrt{1-\beta_t}\, x_{t-1}, \beta_t I\bigr),$$

其中 $\{\beta_t\}$ 为预先设定的噪声调度（如线性、余弦等），控制在每一步中向视频中注入多少高斯噪声。通过链式展开可得到任意步的显式形式：

$$q(x_t \mid x_0) = \mathcal{N}\bigl(x_t; \sqrt{\bar\alpha_t} x_0, (1-\bar\alpha_t) I\bigr),\quad \bar\alpha_t = \prod_{s=1}^t (1-\beta_s),$$

这使得在训练时可以直接从任意时间步采样 $x_t$ ，而不必真的从 $x_1$ 一步步前向推进，从而显著降低了训练方差。(arXiv)

反向过程则是一个由神经网络参数化的马尔可夫链：

$$p_\theta(x_{t-1}\mid x_t) = \mathcal{N}\bigl(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t)\bigr),$$

其中 $\mu_\theta,\Sigma_\theta$ 由去噪网络预测。Ho 等人的工作表明，与直接预测 $\mu_\theta$ 相比，预测前向噪声 ϵ 更稳定，对应的损失可以写成：

$$\mathcal{L}(\theta) = \mathbb{E}_{x_0,\epsilon,t} \bigl[ \|\epsilon - \epsilon_\theta(x_t,t)\|^2 \bigr],$$

这里 $\epsilon_\theta$ 是神经网络输出，输入为含噪视频 $x_t$ 及其时间步编码，目标是还原被加的高斯噪声 ϵ。在视频场景下， $x_t$ 可以是完整视频，也可以是其潜空间表示或时空 token 序列。(arXiv)

在采样阶段，标准 DDPM 使用马尔可夫链一步步采样 $x_{t-1}$ ，直到 t=0 得到视频样本。为了加速采样，Song 等人提出了 DDIM，一种非马尔可夫、可逆的隐式扩散模型，可以在更少步数下完成采样和重建。(arXiv) 对 Sora 类模型而言，这一类加速技术在长时视频生成中尤为重要，否则每次采样数百步在大规模系统中代价巨大。

3.2 潜空间扩散与 3D VAE

如果对高分辨率视频直接在像素空间做扩散，维度通常在 T×H×W×C 量级，计算成本极高。近期综述指出，Latent Diffusion Models（LDM）通过先用自编码器将图像或视频压缩到低维潜空间，再对潜变量进行扩散去噪，已经成为图像和视频生成中的主流范式。(SpringerLink)

在视频场景下，典型做法是训练一个 3D VAE 或类似结构的“视频压缩网络”，输入完整视频序列，输出空间和时间都被压缩的潜表示。OpenAI 的 Sora 技术报告显示，其首先训练一个网络将视频同时在空间和时间上压缩到低维潜空间，然后在此潜空间中进行时空 patch 划分。(OpenAI) CogVideoX 则明确指出使用 3D Variational Autoencoder 来沿空间与时间维度压缩视频，再在压缩后的潜空间上进行扩散建模。(语义学者)

表2 常见视频潜空间表示与压缩方式对比（基于文献整理）

表示 / 压缩方式	典型代表	压缩维度	优点	局限性
2D 图像 VAE + 帧级独立编码	早期 Video LDM 等(Yen-Chen Lin)	仅空间压缩，时间不压缩	可复用成熟图像 VAE；实现简单	无法利用时间冗余；长视频成本极高；易产生闪烁
3D VAE（空间+时间联合压缩）	Sora、CogVideoX 等（公开资料中均提到时空联合压缩）(OpenAI)	同时在时间与空间上下采样	利用时间冗余，大幅降低 token 数量；天然适配时空 token 化	训练复杂，对长视频和高分辨率的压缩质量要求高
混合 2D+1D 编码（空间 2D + 时间 1D）	Movie Gen 等(Yen-Chen Lin)	空间和时间分别压缩	在空间与时间上可采用不同结构，灵活性高	编码结构相对复杂，对齐不同维度上的压缩率需要仔细设计
离散 token 编码（VQ-VAE/MAGVIT 类）	Phenaki, W.A.L.T 等(Yen-Chen Lin)	将视频映射到离散 token 网格	便于与离散 Transformer 结合；易于构造自回归长视频生成	量化误差可能损伤视觉质量；离散 token 维度通常仍然较大

对于 Sora 类模型，我们可以将“视频压缩网络 + 潜空间时空 patch 化 + 扩散去噪网络”看作一个整体结构：视频压缩网络负责将 x 映射到 z，时空编码负责将 z 划分为 token 序列 $z_{1:N}$ ，扩散网络则在这些 token 上进行噪声注入和去噪建模。(OpenAI)

3.3 Transformer 与 Diffusion Transformer

在扩散模型中，去噪网络最初主要采用 U-Net 结构；但随着任务维度和数据规模的扩大，Vision Transformer（ViT）及其扩散版本 DiT（Diffusion Transformer）开始取代卷积 U-Net 成为主流。视频扩散综述指出，当前许多文本到视频模型采用 Transformer 作为去噪网络，可以更自然地建模长程依赖和多模态条件。(arXiv)

OpenAI 在 Sora 技术报告中明确提到，Sora 是一个“Diffusion Transformer”，即在扩散框架下使用 Transformer 作为 denoiser，在时空 patch 序列上进行自注意力操作。(OpenAI) CogVideoX 则进一步引入“Expert Transformer”，在同一序列维度上拼接文本与视频 token，通过不同的 AdaLN（Adaptive LayerNorm）分支实现模态特化。(语义学者) 这类设计在本质上将扩散去噪过程视为一个时间步条件下的序列建模问题，Transformer 负责在时空 token 之间建立复杂的注意力连接。

综述和实践工作还表明，DiT 主干通常与 LDM 框架结合，即在潜空间 patch 序列上施加扩散。与此同时，多数系统采用双向注意力而非自回归，使模型可以同时利用过去和未来帧的上下文，这对于在单次采样中生成整段视频尤其关键。(Yen-Chen Lin)

3.4 视频时空建模基础：3D 卷积与时空 token

传统的视频表示通常依赖 3D CNN，在空间和时间维上使用三维卷积核进行特征提取。早期视频生成模型例如基于 3D U-Net 的 VDM 变体即采用此类结构。(ResearchGate) 然而在大规模扩散模型中，3D 卷积在高分辨率和长时长下的计算成本难以承受。

另一条路径是将视频视为帧序列，分别在空间和时间维上应用 2D+1D 的因子化操作。更进一步，Lumiere 等工作提出在完整时空体上一次性进行 U-Net 式下/上采样，仍然保持卷积结构，但在多尺度上整合空间和时间信息以保证全局一致性。(Lumiere - Google Research)

Sora 类模型则普遍采用“时空 token 化”的思路：在潜空间中将视频划分为小的空间–时间块，每个块对应一个 token，从而转化为标准的 Transformer 序列建模问题。Sora 的技术报告特别强调，其首先通过视频压缩网络将视频压缩，再将潜表示划分为“spacetime patches”，这些 patch 作为 Transformer token，使模型能在可变分辨率和可变时长的数据上统一训练。(OpenAI) 这种设计的理论优势在于，用较少的 token 表示大规模时空体，同时利用 Transformer 在任意长序列上的可扩展性。

表3 常见视频时空建模策略及其在 Sora 类模型中的位置（基于文献梳理）

时空建模策略	典型代表	对时间维的处理方式	与 Sora 类模型关系
纯 3D CNN / 3D U-Net	早期 VDM、视频去噪模型(ResearchGate)	卷积核同时覆盖空间和时间	在 Lumiere 的 Space-Time U-Net 中得到扩展和尺度化(Lumiere - Google Research)
2D+1D 因子化卷积	部分视频 LDM、W.A.L.T 等(Yen-Chen Lin)	空间用 2D，时间用 1D	常用作 tokenizer 或编码器的一部分，用于构造潜空间表示
时序 Transformer + 空间 CNN	Phenaki 等(Yen-Chen Lin)	时间维上使用 Transformer	适合离散 token 序列建模，为后续 DiT 结构铺路
潜空间时空 patch + DiT	Sora、CogVideoX、Cosmos 等(OpenAI)	直接对 patch 序列做自注意力	当前大规模 Sora 类模型的主流选择，易于统一图像与视频表示

理解这些基础结构，有助于在后文中更精确地把握 Sora 类模型在“时空编码与扩散机制”上的设计空间。

4 Sora 类架构的整体设计范式

4.1 整体框架结构

从公开资料和多篇综述来看，2025 年的 Sora 类视频扩散模型在整体架构上呈现出高度一致的分层结构：最底层是“视频压缩与解码层”，负责在像素空间与潜空间之间进行可逆映射；中间层是“时空 token 化与条件编码层”，将潜空间视频表示拆解为适合 Transformer 或 U-Net 处理的时空单元，并注入文本等条件；最上层则是“扩散建模与采样层”，在时空 token 序列上实现前向加噪和反向去噪过程。Sora 技术报告将这一流程浓缩为“视频压缩网络 + 时空潜 patch + Diffusion Transformer”的三段式结构，CogVideoX 和 Cosmos-1.0 等则在此基础上加入更多针对文本条件和多域对齐的细节。(OpenAI)

图4-1 Sora 类视频扩散模型总体架构示意图：横向为从左到右的数据流，依次为原始视频/文本输入、3D VAE 编码得到潜空间视频张量、在潜空间上进行时空 patch 化得到 token 序列、在每个时间步上将噪声注入这些 token、Diffusion Transformer 对这些 noisy token 进行去噪并输出估计噪声或干净 token、通过解码器重建视频。

这种架构的关键特点是将视频生成拆解为两个相对独立的问题：一是如何高效地表示和编码高维的时空数据，二是如何在这种表示上完成高维分布的扩散式建模。通过 3D VAE 和时空 patch，原本难以直接处理的 T×H×W 视频被压缩到 token 序列的形式，而扩散模型则作为一个统一的生成过程，处理所有可见和潜在的随机性。(OpenAI)

4.2 统一视觉表示与图像–视频联合训练

Sora 技术报告中特别强调“统一视觉表示”的思想：通过在潜空间中使用时空 patch 作为 token，可以在同一模型中同时训练图像和视频，因为图像可以视作只有一帧的视频。(OpenAI) 视频扩散综述也指出，联合图像–视频训练能够利用大量高质量图像数据为空间层预训练，从而在数据有限的视频任务上获得更好的泛化。(Yen-Chen Lin)

在统一表示层面，典型做法是将一个长度为 T、分辨率为 H×W 的视频在潜空间中映射为尺寸为 T′×H′×W′的张量，然后按固定 patch 大小（例如 $p_t \times p_h \times p_w$ ）划分为 N 个 patch，每个 patch 展平成一个 token，并通过线性投影映射到 Transformer 的隐空间维度。图像则可以视为 T=1 的特殊情况，压缩后同样进行 patch 化，最终在 token 序列级别统一。(OpenAI)

图4-2 统一图像–视频潜空间 token 表示示意图

这一设计不仅让模型可以共享空间特征抽取能力，还为训练过程中的“渐进式扩展”提供了基础。实践经验显示，许多大规模视频生成模型都会先在较短视频和较低分辨率上训练，再逐步扩展时长和分辨率，而在统一潜空间 token 形式下，这种扩展在实现上仅表现为 token 序列长度和 patch 布局的变化。(Yen-Chen Lin)

4.3 文本条件与多模态融合框架

Sora、Lumiere 和 CogVideoX 等模型都强调文本–视频对齐能力的重要性。Sora 在训练中采用类似 DALL·E 3 的重标注（recaptioning）技术，通过先训练一个高质量的视频描述模型，为训练集中的视频生成更详细的描述，从而提高文本–视频对齐程度。(OpenAI) CogVideoX 通过 Expert Transformer 在文本和视频 token 上采用不同的 LayerNorm 参数，使得同一层网络对不同模态有不同的归一化与调制，从而缓解简单拼接时模态间分布差异过大的问题。(语义学者)

在抽象层面，我们可以把文本条件当成另一条 token 序列，与视频 token 一起组成输入，其中文本 token 的位置通常被映射到特定位置段或通过 cross-attention 与视频 token 交互。Diffusion Transformer 或 STUNet 在每个扩散时间步上接收当前 noisy 视频 token 与文本 token，以及时间嵌入，输出对噪声或干净 token 的估计，实现条件扩散。(Yen-Chen Lin)

4.4 采样与解码路径

在采样阶段，Sora 类模型通常从各向同性高斯噪声的潜空间时空 patch 开始，根据给定的文本提示 iteratively 更新这些 patch，直到达到 t=0 的“干净” latent，再通过视频解码网络重建到像素空间。Sora 系统卡提到，为了在产品中控制延迟，Sora 通过精心设计的采样和加速策略，使得在保持视觉质量的前提下仍能在合理时间内输出视频。(OpenAI) 其他模型如 CogVideoX、Cosmos-1.0 等则在论文中给出了 DDIM、DPM-Solver 等高阶 ODE/SDE 解算器的使用细节，用于在减少步数的同时维持采样质量。(Yen-Chen Lin)

表4 Sora 类模型中常见的扩散噪声调度与采样器选择（概念级整理）

设计维度	常见选项	理论/实践影响（基于综述）
噪声调度	线性、余弦、指数等(arXiv)	控制信息破坏速度，影响训练稳定性与采样阶段噪声分布匹配质量
采样器类型	DDPM、DDIM、DPM-Solver 等	决定采样步数与生成速度，隐含对反向过程近似精度的不同假设
采样步数	数十步到百余步不等	步数越多画面越稳定但成本更高，大模型通常在质量与速度间折中调节
采样路径优化	分段噪声调度、SNR 重加权等	通过对不同时间段赋予不同权重，平衡早期骨架成形与后期细节修饰的效果

图4-3 扩散采样过程示意图）

5 时空编码：从像素到潜空间时空补丁

5.1 视频压缩网络的结构与性质

视频压缩网络是 Sora 类模型中最容易被忽视却极其关键的一部分。Sora 技术报告专门用一节描述“Video compression network”，指出其输入原始视频，输出在空间与时间上都被压缩的潜表示；整个扩散模型只在这一潜空间中运行。(OpenAI) 视频扩散综述则从更宏观的角度说明，LDM 的核心思想就是在低维潜空间中进行扩散，这在视频领域同样适用。(SpringerLink)

从结构上看，视频压缩网络往往采用 3D 卷积或 2D+1D 因子化卷积构建编码器和解码器。编码器通过堆叠带有时间步长的卷积层逐步减小时间维长度，同时使用空间卷积和池化层减小空间分辨率；解码器则反向进行上采样和卷积以恢复时空尺寸。在 CogVideoX 等公开工作中，3D VAE 的使用被明确提及，其对视频在空间和时间上进行可学习的压缩，使得后续 Diffusion Transformer 能在较小 token 数量上进行建模。(语义学者)

图5-1 视频压缩网络示意图：从左到右画出输入视频帧序列，经过多层 3D Conv/Pooling 形成越来越小的时空体，最终得到一个小尺寸的 latent 体；再通过对称的解码器恢复视频。

从理论角度看，3D VAE 需要在压缩率和信息保真之间做权衡：压缩过多会导致潜空间中丢失高频细节和细微运动，解码时难以恢复真实质感；压缩不足则导致 token 数过多，使得扩散去噪阶段计算量爆炸。文献中通常不会公开具体的压缩率，但 Cosmos-1.0 等工作指出，他们采用了如 “CV8×8×8” 这一类 3D tokenizer，即在时间和空间上分别使用 8 的步长，从而大幅度减少 token 数。(Yen-Chen Lin)

5.2 潜空间时空补丁与 token 设计

Sora 技术报告在“Spacetime latent patches”一节中指出，视频压缩后会被划分为一系列时空 patch，每个 patch 在 Transformer 中充当一个 token。(OpenAI) 视频生成模型综述与“Video Generation Models Explosion 2024”博客进一步总结了大规模模型中常见的设计：使用连续（非量化）token 以避免质量损失，并在 patchification 时同时考虑时间和空间维度，以适配可变时长和分辨率。(Yen-Chen Lin)

表5 不同时空 token 设计的特点（基于公开资料与综述的概念整理）

token 设计方式	patch 形状示例	优点	潜在问题
纯空间 patch + 帧级序列	$1 \times p_h \times p_w$	简单直观，易用图像模型扩展到视频	对长时间依赖建模成本高；时序冗余利用不足
纯时间 tubelet（整帧 token）	$p_t \times H' \times W'$	强调时间连续性，适合短视频全帧建模	空间维高维度导致 token 数量和计算量巨大
时空立方 patch	$p_t \times p_h \times p_w$	在 token 数量和时空局部性之间取得平衡	patch 边界可能引入块效应；需要合理设计位置编码
多尺度 patch 组合	不同大小 patch 混合	允许模型关注不同尺度的运动与结构	实现复杂，对注意力机制和位置编码提出更高要求

在 Sora 类模型中，最常见的是时空立方 patch 方案，即在压缩后的视频体上取固定尺寸的时间–空间小立方体作为 token，这样 token 的数量与 $T'/(p_t) \times H'/(p_h) \times W'/(p_w)$ 成正比，可以通过调节 patch 尺寸在 token 数和局部细节之间折中。(OpenAI)

图5-2 时空 patch 划分示意图

5.3 位置编码与时空相对关系

当视频被拆解为 token 序列时，原有的空间坐标和时间顺序必须通过位置编码机制传达给 Transformer 或 STUNet，否则模型无法区分不同 token 在时空中的相对位置。视频扩散综述指出，常见方法包括绝对位置编码、二维/三维相对位置编码以及卷积核中的隐式归纳偏置。(ResearchGate)

在 Sora 类架构中，虽然具体实现未完全公开，但可以合理推断其采用了三维位置编码方案，将时间和空间维的相对位置信息编码到 token 的嵌入中。CogVideoX 则在文献中明确讨论了其全时空注意力的设计，强调通过全局 self-attention 让不同时间帧的相关 patch 可以直接相互注意，从而缓解仅使用局部窗口时可能出现的长程运动建模困难。(Yen-Chen Lin)

在理论上，位置编码的选择直接影响模型对时间依赖的建模能力。例如，纯绝对编码可能在长视频扩展时泛化性不足，而相对位置编码则更容易迁移到不同长度的视频；但过于复杂的相对编码又会增加计算复杂度。因此，许多大模型在实践中尝试在绝对和相对编码之间取得平衡，或利用 3D 卷积/下采样结构在部分层中隐式引入平移不变性。

6 扩散机制与去噪网络结构

6.1 时空扩散过程的建模视角

从数学上，视频扩散过程与图像扩散并无本质差异，仍然是通过马尔可夫链在高维空间中建立从数据分布到噪声分布、再从噪声分布回到数据分布的可逆路径。不同在于视频数据的维度更高、时间依赖更强，导致噪声调度、时间步数和去噪网络结构的选择与设计更加敏感。视频扩散综述指出，视频扩散模型在训练时对 batch size、学习率等超参数更敏感，合理设计噪声调度和时间步的采样策略对于收敛至关重要。(arXiv)

在 Sora 类模型中，扩散通常在潜空间时空 patch 上进行，这意味着前向过程可以写作：

$$q(z_t \mid z_{t-1}) = \mathcal{N}\bigl(z_t; \sqrt{1-\beta_t} z_{t-1}, \beta_t I\bigr),$$

其中 $z_t$ 是所有 patch 的拼接向量。由于 Sora 技术报告未公开具体噪声调度和步数，我们只能参考视频扩散综述中对主流模型的描述：许多系统采用几十到上百个时间步，并使用余弦或改进线性调度以在早期阶段保留更多结构信息，在后期阶段集中修复细节。(arXiv)

6.2 Diffusion Transformer 的时空注意力机制

Sora 技术报告明确指出，Sora 使用 Transformer 作为扩散 denoiser，在时空 patch 序列上进行自注意力。(OpenAI) “Video Generation Models Explosion 2024” 博客则进一步指出，Sora 采用 DiT 类结构，即在潜空间 patch 上运行的 Vision Transformer 变体，并以双向注意力跨时空 token 建模。(Yen-Chen Lin)

CogVideoX 的设计为理解 Diffusion Transformer 提供了更可分析的实例。其在论文中采用 3D VAE 编码得到连续潜空间，然后通过 3D patchification 得到视频 token，再将文本 token 与视频 token 在序列维度上拼接输入到 Expert Transformer 中。在该结构中，不同模态通过各自的 AdaLN 分支调制，使得同一层 Transformer 对不同模态有差异化处理，同时 self-attention 在完整的时空–文本序列上进行，确保长时和跨模态信息的统一建模。(语义学者)

表6 去噪网络结构在代表性模型中的差异

模型	去噪主干结构	时空建模方式	文本条件注入方式
Sora	Diffusion Transformer（DiT 类）(OpenAI)	在时空 patch 序列上全局 self-attention	文本 token 与视频 token 共同输入，推测通过 cross-attention 或拼接实现
Lumiere	Space-Time U-Net（卷积分层结构）(Lumiere - Google Research)	多尺度 3D 卷积下采样/上采样	利用预训练 T2I diffusion 的 cross-attention 机制
CogVideoX	Diffusion Transformer + Expert Transformer(语义学者)	时空 patch 上全局 self-attention	文本与视频 token 序列拼接，AdaLN 分支做模态特化
Cosmos	3D patch + DiT 主干	全局 3D patch self-attention	使用 cross-attention 注入文本嵌入(Yen-Chen Lin)

图6-1 Diffusion Transformer 中的视频–文本联合注意力示意图

在理论上，这类架构可以被视为在高维时空–文本空间中的条件密度建模器。每个时间步 tt 的去噪过程相当于在给定 noisy token 和文本条件下拟合后验 $p_\theta(z_{t-1} \mid z_t, y)$ ，而 Transformer 的多头注意力则提供了对高阶依赖关系的建模能力。

6.3 Space-Time U-Net 的一体化时空扩散

与 Diffusion Transformer 路线不同，Lumiere 选择在整段视频的时空体上使用 Space-Time U-Net。这一结构在各尺度上同时对空间和时间进行下采样和上采样，使得模型在每一层都能看到整段视频的全局时空上下文，从而避免仅对关键帧或局部窗口进行建模所带来的全局一致性问题。(Lumiere - Google Research)

图6-2 Space-Time U-Net 时空金字塔示意图

从理论角度看，Space-Time U-Net 与 Diffusion Transformer 的差异主要在于归纳偏置：前者更接近卷积神经网络的局部平移不变性和多尺度金字塔结构，适合对视频中的局部运动和纹理进行高效建模；后者则更依赖注意力机制，具有更强的长程建模能力，但在计算上可能更昂贵。视频扩散综述指出，在高维视频生成任务中，如何平衡这两类结构的优缺点仍是一个开放问题。(ResearchGate)

6.4 训练目标的变体与稳定性

虽然大多数 Sora 类模型仍然采用“预测前向噪声”的损失，但在实际实现中，一些工作会引入加权损失、v-预测（预测线性组合的中间变量）或基于能量距离的目标，以改善训练稳定性和采样质量。综述中提到，训练视频扩散模型时，适当调整不同时间步的权重可以避免模型在极高噪声或极低噪声区间学习不足，从而改善整体性能。(arXiv) Cosmos-1.0 等工作则采用 EDM 类训练目标，通过规范化网络输入输出的统计特性来提升模型的数值稳定性和可扩展性。(Yen-Chen Lin)

流程图 6-1 视频扩散模型训练流程：从左到右依次为采样原始视频样本、通过 3D VAE 编码至潜空间、随机采样时间步并注入噪声、构造 noisy token 输入去噪网络、计算损失并反向传播更新参数。

7 训练策略与模型优化

7.1 文本–视频对齐与重标注

Sora 系统卡与技术报告都强调使用 DALL·E 3 中提出的重标注技术：先训练一个高质量 captioner，为训练集中每个视频生成细粒度的描述，再将这些描述作为条件训练扩散模型。(OpenAI) 这种做法在理论上可被视为对条件分布 p(x∣y)p(x \mid y) 中 yy 的“完善”：通过增加描述细节，使原本粗略的文本标签在语义空间中更接近真实视频内容，从而降低条件生成任务的模糊性。

CogVideoX 则在模型结构上引入 Expert Transformer，通过对文本 token 和视频 token 使用不同的归一化统计参数，使模型能够在同一网络中对不同模态进行差异化建模。(语义学者) 视频扩散综述指出，这类结构在理论上有助于缓解多模态分布差异，使得联合建模的优化问题更加平滑。(ResearchGate)

7.2 联合图像–视频训练与渐进式扩展

“Video Generation Models Explosion 2024” 总结了大规模视频生成模型的若干共性设计，其中之一就是联合图像–视频训练与渐进式扩展：先在丰富的图像数据上预训练空间层，再逐步加入视频数据训练时序层，并在训练过程中先扩展视频时长，再扩展视频分辨率。(Yen-Chen Lin) 这一策略从理论上利用图像–视频间的结构相似性，将难度较高的时序建模放在已经学习到强空间表征之后，从而降低训练不稳定的风险。

表7 Sora 类模型常见训练策略（概念级总结）

训练策略	典型做法（来自公开文献）	理论动机（基于综述与分析）
图像–视频联合训练	在统一潜空间 token 表示下混合图像和视频样本训练(OpenAI)	充分利用图像数据，先学好空间表征，再迁移到视频；减少对大规模标注视频的依赖
渐进式时长扩展	先训练短视频，再逐步增加时间步范围	避免一开始就面对极长时依赖导致的训练不稳定
渐进式分辨率扩展	先在低分辨率上训练，再逐步提升分辨率	降低早期训练的显存与算力压力，在粗粒度结构收敛后再学习细节纹理
重标注与 prompt 重写	使用 captioner 生成详细描述；将用户短 prompt 重写为长 prompt(OpenAI)	提高文本条件的信息量与确定性，缓解“短描述对应多种视频”的一对多问题

图7-1 渐进式训练策略示意图

7.3 扩散时间步采样与损失重加权

在训练扩散模型时，通常需要从时间步 tt 上采样，并计算对应的噪声预测损失。视频扩散综述指出，不同时间步对最终生成质量的影响并不相同，过度关注极高噪声区间可能导致模型难以学到精细结构，而忽略中低噪声区间则可能导致细节恢复不足。(arXiv) 因此，许多工作在时间步采样时采用非均匀分布（例如对数均匀或 SNR-based 采样），并对不同时间步的损失进行重加权，以聚焦在对视觉质量最敏感的区间。

尽管 Sora 和 CogVideoX 等具体模型未全面公开这部分细节，但从其高质量输出和训练稳定性可以推断，其内部很可能采用了经过精心调优的时间步采样策略和损失加权方案，与图像扩散模型在这方面的实践类似。

7.4 评测指标与理论难点

视频扩散综述和多篇系统论文都提到，当前视频生成评测尚不成熟，许多指标基于启发式设计，如 FVD（Fréchet Video Distance）、IS 等，难以全面捕捉视频的感知质量、时序一致性和物理合理性。(ResearchGate) 对于 Sora 类模型，长时一致性和物理可行性是核心卖点，但现有指标往往无法直接衡量“世界模拟”能力，因此大量评估仍依赖人类主观打分和任务特定实验。

表8 视频生成常用评测指标概览（基于综述）

指标	度量对象	优点	局限性
FVD	视频分布整体差异	兼顾视觉质量与时间一致性，常用于 diffusion 模型(SpringerLink)	依赖预训练特征提取网络；对细粒度物理合理性敏感度有限
IS / FID	单帧或图像级质量	易与图像生成任务比较	忽略时间一致性，无法反映视频中的运动质量
用户主观打分	综合感知质量与一致性	直接反映人类感知	成本高、难以标准化；不同系统间难以可重复比较
任务特定指标	如物体跟踪、一致性检测等	可以针对某些能力（如跟踪、物理模拟）进行定量分析	通用性差，难以覆盖视频生成的所有方面

图7-2 指标敏感性对比示意图

8 理论挑战与未来方向

8.1 时空编码与世界建模的理论界限

Sora 技术报告将视频生成模型视为“世界模拟器”的雏形，指出随着模型规模和训练数据的扩大，模型会在没有显式三维或物理归纳偏置的情况下，自发地涌现出类似三维一致性、对象持久性和简单物理效果的能力。(OpenAI) 然而，系统卡也坦诚地指出，Sora 在许多物理交互上仍存在明显缺陷，如玻璃破碎、复杂流体等场景的模拟不准确，对因果关系的理解有限。(OpenAI)

这引出了一个理论问题：仅靠大规模时空补丁编码和扩散建模，模型能在多大程度上逼近真实物理世界的动态？现有工作主要依赖 scale 的经验观察，而缺乏对“时空 token 粒度”“训练数据多样性”“扩散步数和噪声调度”等与世界建模能力之间关系的系统理论分析。未来可能需要将视频扩散模型与物理模拟、因果推理等领域的理论工具结合，对这类“数据驱动的世界模型”的表示能力进行更严格的刻画。(ResearchGate)

8.2 时空注意力结构与计算可扩展性

当前 Sora 类模型在时空注意力结构上大多采用“全局 self-attention”的方案，即允许任意两个 token 之间建立注意力连接。这在理论上确保了长程依赖的表达能力，但在实践中会导致 O(N2)O(N^2) 的复杂度，在高分辨率长视频生成任务中非常昂贵。CogVideoX 和 Cosmos-1.0 等工作在实践中通过分块、序列并行等工程手段缓解这一问题，但在理论上如何设计兼顾表示能力和计算复杂度的时空注意力结构仍然是一个开放课题。(Yen-Chen Lin)

一些最新工作尝试通过窗口注意力、分层注意力或图结构注意力来降低复杂度，但这些方法往往在长程运动建模上存在折衷。如何在理论上分析不同注意力结构对时序感知的影响，并给出可证明的近似界，可能是未来几年视频扩散理论研究的重点方向之一。

8.3 扩散时间与训练/推理效率的统一理论

视频扩散综述指出，扩散模型在训练和推理中都高度依赖时间步数和噪声调度的选择，不同调度策略在理论上对应不同的“路径积分”近似，而在实践中又与优化超参数强耦合。(arXiv) 对于视频这样高维、长时的生成任务，如何在有限时间步内准确重建复杂的时空分布，是一个尚未完全解决的问题。

近年来关于“video diffusion transformers scaling laws”的研究表明，视频扩散模型在超参数选择上比 LLM 更敏感，这意味着传统的扩散理论在视频场景中需要引入新的考虑因素，例如时空冗余、运动复杂度和压缩率等。(Yen-Chen Lin) 如何统一刻画这些因素与扩散时间步、loss 权重和采样器之间的关系，仍需更系统的理论工作。

8.4 评测与对齐：从图像到“世界模拟”

当前视频扩散评测主要集中在视觉质量和时间一致性上，而对于 Sora 类模型强调的“世界模拟”能力，缺乏系统的、任务无关的评测框架。这使得模型训练难以针对“物理合理性”“因果一致性”等高层目标进行优化。(ResearchGate)

未来方向之一是引入更结构化的评测任务，例如让模型在物理场景模拟、动态规划、交互式环境中表现出与真实物理或高精度模拟器一致的行为，这将把视频扩散模型与强化学习、物理引擎等领域更紧密地联系起来。随着这种评测框架的成熟，模型训练目标也可能从纯视觉 loss 扩展到包括物理约束和任务成功率在内的多目标优化，从而使 Sora 类模型真正成为通用世界模型的一部分。

9 结语

综观 2024–2025 年的视频生成领域，Sora 类模型在架构和理论上的核心突破可以概括为三点：第一，通过 3D VAE 或类似结构的“视频压缩网络”，将高维视频数据映射到紧凑的潜空间表示，在这一表示上进行扩散建模，使得超大规模视频生成成为可能；第二，通过时空 patch/token 化将视频与图像统一为通用视觉 token 序列，再以 Diffusion Transformer 或 Space-Time U-Net 为去噪主干，在时空 token 上进行全局或多尺度建模，从根本上提升了长时一致性和复杂运动表达能力；第三，通过重标注、联合图像–视频训练和渐进式扩展等训练策略，使得模型在有限算力条件下仍能充分利用数据，获得良好的文本–视频对齐和视觉质量。(OpenAI)

从理论角度看，这一架构体系将“视频生成”问题转化为“在统一的时空 token 序列上进行扩散式密度建模”的问题，与 LLM 在离散 token 序列上的语言建模形成了某种对称性。Sora 技术报告所描绘的“世界模拟器”愿景，正是这种统一建模能力在视觉和时空维度上的自然延伸。(OpenAI) 当然，当前系统在物理准确性、因果推理和可控性方面仍有显著不足，视频扩散模型的评测体系也尚未成熟。如何在未来的研究中，将物理、因果和规划等要素系统性地纳入 Sora 类架构，仍然是一个开放而富有挑战的问题。

对于关注理论的读者而言，深入理解“视频压缩–时空 token–扩散去噪”这一链条，以及其中涉及的时空表示、噪声调度和注意力结构，是把握未来视频生成与世界建模研究脉络的关键。随着更多细节公开和更多开源模型涌现，我们有理由相信，围绕 Sora 类架构的理论体系会在接下来几年内快速发展，成为生成式模型研究的重要分支。

参考资料

[1] OpenAI, “Video generation models as world simulators”, Technical Report, 2024. (OpenAI)

[2] OpenAI, “Sora System Card”, 2024. (OpenAI)

[3] OpenAI, “Creating video from text – Sora overview page”, 2025. (OpenAI)

[4] O. Bar-Tal et al., “Lumiere: A Space-Time Diffusion Model for Video Generation”, arXiv:2401.12945, 2024. (Lumiere - Google Research)

[5] Lumiere Project Page, “Lumiere: A Space-Time Diffusion Model for Video Generation”, 2024. (Lumiere - Google Research)

[6] Z. Yang et al., “CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer”, arXiv:2408.06072, 2024–2025. (arXiv)

[7] THUDM & collaborators, CogVideoX model documentation（包括 3D VAE 与 I2V 说明）, 2024–2025. (开放实验室)

[8] A. Melnik et al., “Video Diffusion Models: A Survey”, arXiv:2405.03150, TMLR, 2024. (ResearchGate)

[9] W. Ma et al., “Video diffusion generation: comprehensive review and open problems”, Artificial Intelligence Review, 2025. (SpringerLink)

[10] Lilian Weng, “Diffusion Models for Video Generation”, 2024 (technical blog, 对视频扩散建模进行了系统梳理). (lilianweng.github.io)

[11] Yen-Chen Lin, “Video Generation Models Explosion 2024”, 2025 (总结 2024 年核心视频扩散模型共性设计). (Yen-Chen Lin)

[12] OpenAI Video Generation Documentation – “Video generation with Sora – OpenAI API Guide”, 2025. (OpenAI平台)

[13] ChenHsing, “Awesome-Video-Diffusion-Models” GitHub Repository, curated list of video diffusion papers and code, 2024–2025. (GitHub)

[14] J. Qi, “OpenAI Sora’s Technical Review”, Medium Article, 2024（对 Sora 技术报告进行的工程视角解读，本文仅将其中标注为推测的部分视为参考而非事实）。(Medium)