51-44 Generating Long Videos of Dynamic Scenes，生成动态场景长视频

深圳季连AIgraphX

已于 2024-05-04 08:56:45 修改

阅读量1.2k

点赞数 23

分类专栏： aiXpilot 智驾大模型1 文章标签：人工智能自动驾驶智慧城市 AIGC stable diffusion

于 2024-04-24 08:59:45 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_45035094/article/details/138108213

版权

aiXpilot 智驾大模型1 专栏收录该内容

59 篇文章 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了一种新型视频生成模型，能够生成具有丰富动态和新内容的长视频，尤其关注时间轴的一致性和长期一致性。模型采用分层生成器架构，包括低分辨率生成器和超分辨率网络，通过多分辨率训练策略处理长视频。通过在两个新的数据集上训练，该模型可以准确再现物体运动、摄像机视角变化以及随着时间推移出现的新内容。研究表明，这种模型在视频生成方面取得了最先进的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

22年6月，NVIDIA, UC Berkeley联合发布Generating Long Videos of Dynamic Scenes，这也是Sora技术报告中提及的32篇论文之一。

作者的主要贡献是提出了分层生成器架构Hierarchical Generator Architecture，该架构采用了巨大的时间感受野和创新的时间嵌入，优先考虑时间轴Time axis。通过多分辨率方法Multi-Resolution，首先生成低分辨率的视频，然后使用单独的超分辨率网络对其进行细化，生成丰富动态Rich and Dynamics的任意长视频Arbitrarily Long Videos。

Abstract

我们提出了一个视频生成模型，可以准确地再现物体运动、摄像机视角变化以及随着时间的推移出现的新内容。现有的视频生成方法往往无法在保持真实环境中预期的一致性的同时产生作为时间函数的新内容，例如看似合理的动态和对象持续性。一个常见的失败案例是由于过度依赖归纳偏置来提供时间一致性，内容永远不会改变。例如使用单个潜在编码来指示整个视频内容。另一方面，在没有长期一致性的情况下，生成的视频在不同的场景之间可能存在不切实际地变形。为了解决这些限制，我们通过重新设计时间潜在表示来优先考虑时间轴，并通过在较长视频上进行训练来从数据中学习长期一致性。为此，我们利用两阶段训练策略，我们分别使用低分辨率的较长视频和高分辨率的较短视频进行训练。为了评估我们模型的能力