陈巍：Sora大模型技术精要万字详解——原理、关键技术、模型架构详解与应用

对Open AI来说，通过人工智能理解和模拟运动中的物理世界，可以帮助人类解决需要现实世界交互的各种任务或问题，这也是Open AI训练Sora这类T2V（Text to Video，文生视频）模型的目的。国内网络上流传有Sora用于影视或者数字孪生等种种设计目的猜测，但相对于让AI理解真实的物理世界来说，影视和数字孪生的目的都显得太渺小。

AI视频生成技术时间线/2023-2024（作者团队修改自@venturetwins，转载请注明出处）

在Sora之前，AI视频生成的天花板是Runway的Gen-2，支持最长18秒的视频生成，镜头（机位）相对固定，图像质量一般达不到影视级要求。而到了Sora，才是真正迎来了视频生成的GPT时刻。

1 Sora的技术特点与原理

相对于Gen-2和Pika等一众文生视频的前辈，Sora出场就达到了60秒的最大视频时长，并且生成的视频质量达到了影视级的效果。下面归纳下Sora的突出技术特点与原理

AI视频生成技术产品一览（作者团队绘制，转载请注明出处）

1.1 技术特点概述

我们将Sora的技术特点划分为输入输出特征、功能特征、时空与角色一致性三类。

以往的文生视频算法多数是采用公开训练数据，生成的视频多数不够美观，分辨率低，而且在生成视频的过程中，无法精准体现文本提示的内容，用户的文本提示难以转化为高清高质量视频。当然更大的难点是视频中主角运动不连贯或不自然，在镜头移动的时候，主体边缘容易畸变，特别是人物表情细节的畸变严重影响视频的表达效果。

Sora技术特征图示（来源：Data Science Dojo）

相对来说，Sora这类扩散Transformer模型，通过输入的信息和噪声图块（Noisy Patches）来生成清晰的视频，除了支持不同长宽比和分辨率外，还具备高保真的渲染能力，可以相对精准的表达各种输入的提示，且具备较好的时空与角色一致性，甚至能模拟真实世界的物理状态。

视频输入输出的灵活性：Sora能够生成不同分辨率、长宽比的视频，并且支持多机位，支持不同分辨率的提示图/视频输入，提高了内容创作的灵活性。

多模态语言理解与文本提示：Sora提高了视频生成过程对文本的准确性和整体生成质量。能够根据用户的简短提示生成详细的文本提示，从而生成高质量的视频。同时Sora还具备扩展视频和拼接视频的能力，进一步提升视频创作功能。此功能使 Sora 能够执行各种图像和视频编辑任务，包括创建循环视频、动画静态图像、向前或向后扩展视频等。

时空与角色的一致性：这是Sora最关键的优势，生成的视频主体能保持较长时间的时序一致性，确保视频中的事件在时间上连续，同时视频中的物体和背景在视角切换过程中保持相对位置稳定，且主体不发生明显畸变，可以准确的表现复杂场景。

Sora的技术特点（作者团队绘制，转载请注明出处）

1.2 时间长度与时序一致性

在Sora之前的Runway Gen-2、Pika 以及 Stability 的SAD等，所生成的视频长度最长不过18秒。单从视频生成长度来说，Sora已经吊打之前的所有模型了。

从模型训练角度看，十几秒到一分钟，难度并不是简单的线性关系。限制 AI 视频长度的主要因素包括模型训练资源、内容连贯性和逻辑性。视频由连续的多帧图像组成的，生成视频所需要的计算资源随着时间增加呈几何级数的增加。训练能生成较长时间视频的模则需要更大规模的计算资源来支持。

但对于文生视频算法，比计算资源更关键的是生成视频的时间连续性和逻辑一致性的维护，也就是时序一致性问题。例如准确的理解和预测物体的运动和变化，既要时间上连贯，又要符合物理世界的客观时序规律，这才能保证生成的视频是逼真的。比如椅子，不能像气球一样轻飘飘。

相对来说，开发能够理解复杂叙述结构和逻辑关系的文生视频模型较为困难的，时间越长，维持时序连贯性和逻辑性难度就越高。

Sora在时间长度与时序一致性方面具备以下特点：

空间一致性：Sora能够确保生成视频中的物体在空间上保持相对位置的一致性，即使在复杂的场景变换中，多个物体或人物也能保持正确的相对位置和运动轨迹。

角色和物体的一致性：Sora能够在视频中保持角色和物体的长期一致性和存在，即使在视频中出现遮挡或角色离开画面的情况，Sora也能保持其存在和重新出现后的外观。

视频内容的连贯性：Sora能够生成具有连贯故事线的视频，确保视频中的事件和动作在时间上是连续的，符合叙事逻辑，没有剧情的跳跃。

Sora 与Lumiere比较（来源：Sepideh Yazdi）

1.3 真实世界物理状态模拟

Open AI团队发现，在大规模训练下，Sora展示出了一系列引人注目的涌现能力。这让 Sora 有能力在一定程度上模拟真实世界中的人、动物和环境。例如画家可以在画布上留下新的笔触，并随着时间的推移而持续，符合真实世界的物理规律。

Sora在真实世界物理状态模拟方面具备以下特点：

简单影响行为模拟：Sora能够模拟一些简单的与世界互动的行为，如画家在画布上留下笔触，或者人物在吃食物时留下痕迹。这些行为不是预设的规则，而是模型通过学习大量数据后自然涌现的能力。

动态相机运动：Sora能够生成包含动态相机运动的视频，这意味着视频中的人物和场景元素能够在三维空间中保持连贯的运动。例如，当相机移动或旋转时，视频中的物体会相应地改变位置，就像在现实世界中一样。

1.4 Sora原理

Sora通过扩散Transformer模型（Diffusion Transformer Model）来处理输入数据和生成视频。

在训练过程中，扩散Transformer通过学习输入的视频/图像等数据的分布，将这些分布映射到低维空间，从而实现对视频的压缩和重构的学习。

目前猜测Sora包括向量量化变分自编码器（VQ-VAE-2）、多模态Transformer（MMT）以及去噪扩散概率模型（DDPM）等组件。简而言之，Sora的本质就是Diffusion和Transformer模型的结合，下面通过这两类模型来介绍Sora的原理。

1.4.1扩散模型与单帧图像的生成

扩散模型实现了文本生成单帧图像的功能。

扩散模型（Diffusion Model）起源于非均衡热动力学，通过模拟自然界中常见的扩散过程来学习生成新数据。通过增加（高斯）噪声来逐步混淆数据（扩散过程），随后学习逆转噪声过程以重新构造样本（逆扩散过程）。

扩散过程与逆扩散过程（来源：作者团队修改自北京大学）

扩散过程（X0->XT）：逐步对图像（训练数据集）加噪声，这一逐步过程可以认为是参数化的马尔可夫过程，相当于制作模型训练/学习的素材。

逆扩散过程（XT->X0）：从噪声中反向推导，逐渐消除噪声以逆转生成图像。这一过程相当于从少量信息中生成图像。

扩散模型论文数量逐年增加（来源：Standford）

扩散模型在计算机视觉、自然语言处理等领域有着广泛的应用，大有超越GAN模型的趋势。例如OpenAI的DALL·E 2和Google的Imagen这两个先进的文本生成图像算法，都是基于扩散模型架构。

在Sora中，Transformer功能生成的潜空间数据通过扩散功能生成富于细节的单帧图像，单帧图像再组成连续的视频。

1.4.2 Transformer模型与连续视频语义的生成

扩散模型在生成高清晰度、近乎照片般图像方面擅长，但是并不具备建立连续语义关联的能力。仅用扩散模型和UNet难以实现连续而逻辑自洽的视频流。

相比之下，Transformer模型利用自注意力机制来把握序列数据（对于Sora就是单帧图像的潜空间表征）中各个元素之间的关联，在图像分类和自然语言处理（NLP）任务中表现突出。

输入的序列数据，在Transformer计算后，生成最大概率的对应输出数据。无论是文本还是视频（两者都是序列），都可以转换为一个高维向量组成的序列。对于自然语言处理，这个最小单位是Token，对于Sora等文生视频算法来说，这个最小单位就是图块（Patch）。

以Encoder为例的Transformer生成示例（来源：Towards Data Science）

Transformer在数学上类似大矩阵的计算，通过计算不同语义之间的关联度（概率）来生成具有最高概率的语义反馈。传统的RNN、LSTM或者GRU主要是进行模式识别，而Transformer不仅仅是一个矩阵计算，事实上还承载着语义关联的重要功能。

Transformer中的核心组件是多头自注意机制模块。Transformer将输入的编码表示视为一组键值对（K，V），两者的维度都等于输入序列长度。

最低0.47元/天解锁文章