0 引入
2024年2月16日,OpenAI在其官网上面正式公布了一个新的文本生成视频模型sora。从官方声明中可以了解到,此次公开主要是为了与 OpenAI 以外的人合作并获得反馈,同时也能让公众提前了解即将到来的 AI 功能。
本篇文章主要面向国内不熟悉英语又对sora感兴趣的同学,对OpenAI公开sora的文章(机翻基本不能看)做了翻译和解读。想要做进一步了解的同学,可以直接访问官方原文查阅。以下是OpenAI公布sora的主要内容。
1 sora是什么?
Sora是一个可以通过文本指令创建逼真且具有想象力场景镜头的AI模型。
2 sora能用来做什么?
为了训练一个可以帮助人们处理一些需要现实世界交互才能解决的问题,sora团队在教AI理解和模拟运动中的物理世界。下面介绍一下文本生成视频的模型,Sora。Sora可以生成长达一分钟的视频,在保持视觉效果还能紧贴用户给出的提示语。
先让我们看看sora直接生成的视频案例:
- 提示语1:
一个时髦的女人走在东京的街道上,街道上布满了温暖的霓虹灯和生动的城市标志。她穿着一件黑色皮夹克,一件红色的长裙,黑色的靴子,带着一个黑色的钱包。她戴着太阳镜,涂着红色的口红。她走路自信而随意。街道潮湿且反光,创造了五颜六色灯光的镜面效果。许多行人在附近走动。
- 提示语2:
几只巨大的长毛猛犸象踏着雪地走来,它们长长的毛茸茸的皮毛在风中轻轻地飘动,远处是白雪皑皑的树木和引人注目的白雪覆盖的山脉,午后的阳光和薄薄的云朵以及远处高高的太阳创造了温暖的辉光,低矮的相机视角令人惊叹,通过美丽的摄影捕捉到了这只巨大的毛茸哺乳动物,景深。
- 提示语3:
一部电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,在35毫米胶片上拍摄,色彩鲜艳。
- 提示语4:
动画场景的特写镜头是一个短小的毛茸茸的怪物跪在融化的红蜡烛旁边。艺术风格是3D和真实的,重点是照明和纹理。这幅画的意境是一种惊奇和好奇,因为怪物睁大眼睛,张开嘴凝视着火焰。它的姿势和表情传达了一种天真和好玩的感觉,好像它是第一次探索周围的世界。暖色和戏剧性照明的使用进一步增强了图像的舒适氛围。
- 提示语5:
照片级特写视频,两艘海盗船在一杯咖啡中航行时相互战斗。
-
提示语6:
一个20多岁的年轻人坐在天空中的一片云上读着一本书。
当前的进展
目前,红队队员(就是指对模型进行渗透测试的攻击方)可以使用sora来评估关键区域的危害或风险。sora团队还将模型的访问权限授予许多视觉艺术家、设计师和电影制作人,以此获得提高模型对创意工作者具有最大帮助能力的反馈。
OpenAI正在尽可能快地分享他们的研究进展,为了与 OpenAI 以外的人合作并从那里获得反馈,同时也能让公众提前了解即将到来的 AI 功能。
Sora可以生成复杂的场景镜头,这个场景的主题和背景具有准确的细节,并且可以让多个角色完成特定的动作。模型不仅可以理解在提示语中要求的内容,还可以理解这些事物在场景中是如何存在的。
- 提示语:
与中国龙一起的中国农历新年庆祝视频。
对语言深刻的理解让模型能够精准地解释提示语从而生成一些生动的能表达丰富情感的人物角色。sora还可以在同一个生成的视频中创建多个准确保留人物和视觉风格的镜头。
模型的弱点
目前的模型也存在弱点。
-
模型可能难以准确模拟复杂场景中的物理特性,因为没有理解具体实例下的因果关系。例如,一个人可能会咬一口饼干,但之后,饼干可能不会有咬痕。
-
模型可能会弄混提示语的空间细节(比如混淆左和右),还可能难以准确描述随着时间的推移发生的事件(例如遵循特定的相机轨迹)。
3 在安全性方面的考虑
在OpenAI的产品中提供Sora之前,将采取几个重要的安全措施。
-
sora团队正在与红队(错误信息、仇恨内容和偏见等领域的领域专家)合作 , 他们将对模型进行对抗性测试。
-
sora团队还在构建工具来帮助检测误导性内容,例如检测分类器,它可以判断视频是由sora生成的。如果将来在OpenAI产品中部署该模型将计划包括C2PA元数据(tips:通过制定一个开放的技术标准,来证明媒体和数字内容的来源和修改历史)。
-
除了开发新技术为部署做准备外,sora团队还利用了为使用DALL·E 3的产品构建的现有安全方法,这些方法也适用于sora。例如,一旦在OpenAI产品中,文本分类器就会检查并拒绝违反使用政策的文本输入提示,比如那些要求极端暴力、性内容、仇恨图像、名人肖像或他人IP的提示。sora团队还开发了强大的图像分类器,用于审查生成的每个视频的帧,以帮助确保它在向用户显示之前符合我们的使用策略。
-
sora团队将让世界各地的政策制定者、教育工作者和艺术家参与进来,了解他们的担忧,并标记这项新技术的积极使用案例。尽管进行了广泛的研究和测试,但我们无法预测人们使用我们技术的所有有益方式,也无法预测人们滥用技术的所有方式。这也是为什么我们认为,随着时间的推移创建和发布越来越安全的人工智能系统的关键在于贴近现实世界进行发展。
4 从技术层面进行说明
sora的模型结构
Sora是一个扩散模型,它从一个看起来像静态噪声的视频开始生成视频,并通过多次去除噪声来逐渐变换视频。
Sora能够一次生成整个视频,或者扩展生成的视频以使其更长。通过一次为模型提供多帧的预见性,我们解决了一个具有挑战性的问题,即确保主题即使在暂时离开视线时也保持不变。与GPT模型类似,Sora使用了转换器架构,释放了更好的的扩展性能。
sora团队将视频和图像表示为较小的数据单元(patches)的集合,每个数据单元类似于GPT中的令牌。通过统一表示数据的方式,可以在比以前更广泛的视觉数据上训练扩散转换器,跨越不同的持续时间、分辨率和纵横比。
技术基础(DALL·E和GPT模型)
Sora的开发基于过去对DALL·E和GPT模型的研究。它使用了DALL·E 3中的重述技术,该技术涉及为视觉训练数据生成高度描述性的字幕。结果,模型能够更忠实地遵循用户在生成的视频中的文本指令。
除了能够仅根据文本指令生成视频外,该模型还能够获取现有的静止图像并从中生成视频,精确并且细致地让图像动起来。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。
在sora的技术报告中可以了解更多信息.
5 结语
综上所述,这份公开报告为我们揭示了未来ai技术发展的一个新的方向。Sora是能够理解和模拟真实世界的模型的基础,这一能力将是实现AGI的重要里程碑。
- 欢迎关注我的公众号,不仅为你推荐最新的博文,还有更多惊喜和资源在等着你!一起学习共同进步!