【DataWhale学习】Sora技术原理

本文介绍了Sora技术的多种功能,如文生视频、图生视频、视频风格转换等,强调了模型规模扩大对视频质量的提升、数据工程在输入设计中的重要性以及AI基础设施对于大规模训练的制约。LLM作为核心,多模态技术将持续增强Sora的能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Sora技术原理

Sora能力总结

  1. eText-to-video: 文生视频
  2. Image-to-video: 图生视频
  3. Video-to-video: 改变源视频风格or场景
  4. Extending video in time: 视频拓展(前后双向)
  5. Create seamless loops: Tiled videos that seem like they never end
  6. Image generation: 图片生成 (size最高达到 2048 x 2048)
  7. Generate video in any foformat: From 1920 x 1080 to 1080 x 1920
    视频输出比例自定义
  8. Simulate virtual worlds: 链接虚拟世界,游戏视频场景生成
  9. Create a video: 长达60s的视频并保持人物、场景一致性

模型训练流程

在这里插入图片描述

技术总结

  1. Scaling ng Law:模型规模的增大对视频生成质量的提升具有明确意义,从而很好地解决视频一致性、连续性等问题;
  2. Data Engngine:数据工程很重要,如何设计视频的输入(e.g. 是否截断、长宽比、像素优化等)、patches 的输入方式、文本描述和文本图像对质量;AI Infrfrara:AI 系统(AI 框架、AI 编译器、AI 芯片、大模型)工程化能力是很大的技术壁垒,决定了 Scaling 的规模。
  3. LLM:LLM 大语言模型仍然是核心,多模态(文生图、图生文)都需要文本语义去牵引和约束生成的内容,CLIP/BLIP/GLIP 等关联模型会持续提升能力;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值