“地表最强”文生视频模型?Sora 背后有何秘密?

Sora:AI视频生成的里程碑——迈向通用人工智能
本文分析了Sora,OpenAI的文生视频大模型,如何通过统一视觉数据表示和Transformer技术解决视频生成的挑战,以及它如何通过规模效应和大数据推动AI性能提升,向着通用人工智能(AGI)目标迈进。

自 2022 年底 ChatGPT 的横空出世,人工智能再度成为全世界的焦点,基于大语言模型(LLM)的 AI 更是人工智能领域的“当红炸子鸡”。此后的一年,我们见证了 AI 在文生文、文生图领域的飞速进展,但在文生视频领域发展相对较慢。而在 2024 年开年,OpenAI 再度投放重磅炸弹——文生视频大模型 Sora,内容创作的最后一块拼图被 AI 补齐了。

一年前,一段史密斯吃面条的视频在社交媒体病毒式传播,画面中这位影帝面目狰狞,五官变形,以一种扭曲的姿态在吃着意大利面。这糟糕的画面提醒着我们当时的 AI 生成视频的技术才刚刚起步。

willsmitheatingspaghettiwillsmith.gif
仅仅一年后,一段由 Sora 生成的“时尚女性走在东京街道上”的 AI 视频再次引爆社交媒体。在随后的 3 月份,Sora 又与来自世界各地的艺术家联手,正式推出了一系列颠覆传统的超现实艺术短片。下面这部由著名导演 Walter 结合 Sora 创作出来的短片《Air Head》,其画面精美逼真,内容天马行空,极具想象力。可以说 Sora 出道即“碾压”了 Gen-2、Pika、Stable Video Diffusion 等主流 AI 视频模型。1e9c567b4bda4013bf2c149165e7444b 1.gif

AI 的进化速度远超预期,我们可以轻易预见到,现有的产业格局,包括短视频、游戏、影视、广告等将在不久的将来迎来重塑。 Sora 的到来似乎让我们离构建世界的模型更近了一步。

Sora 为何有如此强大的魔力?它运用了哪些神奇的技术?笔者查阅了官方技术报告和众多相关文献后,将在本文为大家解读 Sora 背后的技术原理以及它成功的关键。

1 Sora 要解决什么核心问题?

用一句话概括,Sora 面对的挑战是如何将多种类型的视觉数据转化为统一的表示方法,从而可以进行大一统的训练。

为什么要做大一统训练?在回答这个问题之前,我们先了解一下 Sora 之前的主流 AI 视频生成思路。

1.1 前 Sora 时代 AI 视频生成方式

  • 基于单帧图像内容进行扩展

基于单帧图像的扩展即用当前帧的内容去预测下一帧,每一帧都是上一帧的延续,从而形成连续的视频流(视频的本质就是一帧帧连续展示的图像)。

这个过程中,一般是先用文本描述来生成图像,再根据图像来生成视频。但是这种思路存在一个问题:用文本生成图像本身具有随机性,这种随机性在用图像生成视频时被二次放大,最终的视频可控性和稳定性很低。

  • 对整段视频直接进行训练

既然基于单帧推导的视频效果不好,那就将思路转变为对整个视频进行训练。

这里通常会选取一个几秒钟的视频片段,并告诉模型这个视频展现的内容,通过大量的训练之后,AI 就能学会生成与训练数据风格相似的视频片段。而这种思路的缺陷在于,AI 学习到的内容是片段式的,难以生成长视频,且视频的连续性较差。

可能有人会问,为什么不用更长的视频进行训练?主要原因是视频相比于文字、图片来说是非常大的,而显卡的显存有限,并不能支持更长的视频训练。在种种限制之下,AI 的知识量极其有限,当输入它“不认识”的内容时,生成的效果往往不尽人意。

因此,想要突破 AI 视频的瓶颈,就必须解决这些核心问题。

1.2 视频模型训练的挑战

视频数据有各种各样的形式,从横屏到竖屏,从 240p 到 4K,不同的宽高比,不同的分辨率,视频属性各不相同。数据的复杂多样性给 AI 训练带来了很大的困难,进而导致模型的效果不佳。这也是为什么要先对这些视频数据进行统一化表示。</

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值