Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对外发布。
Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。
Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。
Sora在日语中是“天空”(そら)的意思,引申含义还有“自由”,象征着其无限的创造潜力。
行业背景
-
OpenAI在大模型领域的成功
2022年底,OpenAI正式推出ChatGPT,这款由人工智能技术驱动的自然语言处理工具能够通过学习和理解人类的语言来进行对话。ChatGPT是OpenAI迈出的第一步,这款让所有人都能体会到人工智能潜力的现象级产品,展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后,OpenAI的开发重点逐步过渡到图像的生成,Dall-E模型在生成图像方面也获得了重大突破。
-
视觉算法的进步
视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展,这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域,由于扩散算法的成熟,这些领域受益匪浅。然而,与图像生成相比,3D资产和视频生成在数据和算法方面面临的难点更多 。
尽管如此,考虑到大型语言模型(LLM)对人工智能各领域的加速作用以及已经出现的优秀开源模型,2024年该行业有望实现更大的发展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的视频应用逐渐受到关注,这验证了多模态技术的持续进步与成熟 。但与此同时,民主倡导者和人工智能研究人员警告说,这些工具已经被用来欺骗和欺骗民众。
发展历程
模型发展
2021年1月5日
文生图模型Dall-E发布
Dall-E可以根据简单的描述创建逼真和清晰的图像,精通各种艺术风格,还可以生成文字制作建筑物上的标志,并制作同一场景的草图和全彩图像。
2022年4月
Dall-E 2发布
Dall-E 2不仅可以生成更真实和更准确的画像,而且能够将文本描述中的概念、属性和风格等元素综合起来,生成现实主义的图像和艺术作品。
2022年11月30日
大语言模型ChatGPT发布
ChatGPT不仅能与人对话,还能编写代码、创作内容等,这一款革命性产品的上线引发全球关注,上线仅5天用户数量就已突破100万。
2023年3月15日
GPT-4正式面世
GPT-4可以更准确地解决用户的难题,多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前代产品。
2023年9月21日
Dall-E 3正式发布
Dall-E 3能够更准确、更优秀地生成效果,可以更准确地呈现用户的想法,用户可以要求ChatGPT提供合适的提示词。
2024年2月16日
Sora问世
Sora继承了Dall-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。Sora能够根据提示词生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。
功能特色
优点
-
功能综述
Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频 (其他AI视频工具还在突破几秒内的连贯性 ),视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” 。
中国龙年舞龙