51-44 Generating Long Videos of Dynamic Scenes,生成动态场景长视频

本文介绍了一种新型视频生成模型,能够生成具有丰富动态和新内容的长视频,尤其关注时间轴的一致性和长期一致性。模型采用分层生成器架构,包括低分辨率生成器和超分辨率网络,通过多分辨率训练策略处理长视频。通过在两个新的数据集上训练,该模型可以准确再现物体运动、摄像机视角变化以及随着时间推移出现的新内容。研究表明,这种模型在视频生成方面取得了最先进的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

22年6月,NVIDIA, UC Berkeley联合发布Generating Long Videos of Dynamic Scenes,这也是Sora技术报告中提及的32篇论文之一。

作者的主要贡献是提出了分层生成器架构Hierarchical Generator Architecture,该架构采用了巨大的时间感受野和创新的时间嵌入,优先考虑时间轴Time axis。通过多分辨率方法Multi-Resolution,首先生成低分辨率的视频,然后使用单独的超分辨率网络对其进行细化,生成丰富动态Rich and Dynamics的任意长视频Arbitrarily Long Videos。

Abstract

我们提出了一个视频生成模型,可以准确地再现物体运动、摄像机视角变化以及随着时间的推移出现的新内容。现有的视频生成方法往往无法在保持真实环境中预期的一致性的同时产生作为时间函数的新内容,例如看似合理的动态和对象持续性。一个常见的失败案例是由于过度依赖归纳偏置来提供时间一致性,内容永远不会改变。例如使用单个潜在编码来指示整个视频内容。另一方面,在没有长期一致性的情况下,生成的视频在不同的场景之间可能存在不切实际地变形。为了解决这些限制,我们通过重新设计时间潜在表示来优先考虑时间轴,并通过在较长视频上进行训练来从数据中学习长期一致性。为此,我们利用两阶段训练策略,我们分别使用低分辨率的较长视频和高分辨率的较短视频进行训练。为了评估我们模型的能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值