Sora初窥_Task1

Sora是一款先进的AI技术,具备文本到视频生成、复杂场景再现、深入语言理解等能力,通过扩散模型和Transformer架构实现了物理世界模拟。文章详细探讨了其训练流程、技术难点和未来可能性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Sora 目前具有的能力

人们常常将新技术奉为解决一切问题的灵丹妙药,以至于它们被吹捧得过高,仿佛可以超越人类的局限。然而,沿着这样一条充满光芒的道路,我们不禁要问:技术的荣耀是否会将我们带向远离本真的虚幻之境?

  • 1、文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,具有很好的连续性,而且完整准确还原了用户的提示语
  • 2、复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。
  • 3、语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。
  • 4、多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。
  • 5、从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。
  • 6、物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。

Sora模型训练流程

image

1.原始数据切分成Patches,再通过VAE编码器压缩成低维空间表示(压缩映射)

1.1统一表示成不同类型的视频数据

在这里插入图片描述

2.基于DiT(Diffusion Transformer)架构完成 文本语义图像语义的再度映射

  • 扩散模型DDPM
    • 先对图像加上噪声(一般是高斯噪声),再通过去噪来生成所需要的模型
      在这里插入图片描述

在这里插入图片描述

  • 基于扩散模型主干的U-Net
    • 先通过Image encoder将真实的图像映射到潜空间Latent space中,然后在Latent Space中进行加噪和去噪的步骤,最后将Latent space映射回图像域中(通过 image decoder),以此来获得生成的图像。
    • U-Net的优势
      • 可以降低计算量来完成任务,下面的Diffusion 模型也是采用了U-Net骨架,将原来的CNN换成了Transformer。
        在这里插入图片描述
      • Stable Diffusion 的训练过程与Sora猜测的训练模型的比较
        • SD在这里插入图片描述
        • Sora在这里插入图片描述

3.DiT生成的低维空间表示,通过VAE解码器恢复成像素级的视频数据

  • ViT(Visual Transformer)

    • CV领域通过借鉴NLP的Transformer模型来进行任务。Patches 类似于NLP中的tokens的概念
  • 在这里插入图片描述

  • ViViT

    • 视频信息中还有这时间与空间的信息,谷歌提出了三种处理的架构:时间空间先后进行和并列进行,但是实际结果相差不大。
    • 在这里插入图片描述
  • 如何Patch

    • 摊大饼法
      • 输入帧中均匀采样,然后采用ViT相同的法子嵌入帧中,并将token连接在一起
        在这里插入图片描述
    • 切块法
      • 视频作为一个大的立方体切成一个个小的立方体(也就是patches)3
      • 在这里插入图片描述
  • DiT Diffusion Transformer

    • 模型架构
    • 在这里插入图片描述
      在这里插入图片描述

Sora的技术难点猜测(原理上不难,工程实现有很大难度)

  • 训练数据
    • 训练中加入了物理引擎
    • 训练数据的质量高影响训练的结果
  • Scale up程度
    • 在OpenAI之前的基础上开展的进一步工作(DALL,CLIP等),考虑到实现的可能性和技术路径的传承。
    • 约莫是百亿级别的参数量
  • 训练收敛的trick
  • 如何实现长文本的支持
    • 视频是一下子生成60s的视频,没法进行两个视频的拼接(观点)
  • 如何实现视频中实体单独高质量和一致性?
  • VAE如何进行视频的压缩?

Reference

(学习源: 学习手册:https://datawhaler.feishu.cn/wiki/LxSCw0EyRidru1kFkttc1jNQnnh

开营直播,sora技术原理详解回放https://www.bilibili.com/video/BV1wm411f7gf

Sora硬核解读: https://www.bilibili.com/video/BV1KZ42127GP

圆桌谈话:https://www.bilibili.com/video/BV12S421A7Xz)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值