人工智能如何将静态图像转换为动态、逼真的视频?OpenAI的 Sora 通过创新性地使用时空碎片技术(spacetime patches)给出了一个答案。
在快速发展的生成模型领域,OpenAI 的 Sora [1]是一个重要的里程碑,有望重塑我们对视频生成的理解和认识。本文将解读 Sora 背后的技术[2]以期激发新一代模型在图像、视频和3D内容创建方面的潜力。
OpenAI 使用以下提示词生成生成了一段视频:A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer. —— 通过Sora生成的视频内容几乎达到了无以伦比的逼真程度。由于 Sora 正在进行测试,完整模型尚未完全向公众发布。
01 Sora 的独特方法如何改变视频生成的方式
在生成模型(generative models)领域的发展过程中,我们见证了从生成式对抗网络(GAN)到自回归(auto-regressive)和扩散模型(diffusion models)等多种方法的演变,它们都有各自的优势和局限性。Sora通过采用新的模型技术和凭借其高度灵活性带来了范式转变,能够处理多种多样的视频时长(duration)、宽高比(aspect ratio)和分辨率(re
订阅专栏 解锁全文
373

被折叠的 条评论
为什么被折叠?



