利用混合语境生成长视频的创新！高效的语境保存和高精度生成

原创于 2025-12-22 15:33:56 发布 · 184 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

概述

这项研究旨在解决长时间视频生成中的最大难题：长期上下文保存。

传统的扩散变换器（Diffusion Transformer）基于自注意机制，很难生成数分钟规模的视频，因为计算复杂度会随着序列长度的增加而平方增加。
以前的方法对历史记录进行压缩或固定减薄，但存在细节缺失和重要背景缺失等问题。

因此，作者将视频生成重新表述为一个 "内部信息检索 "问题，并提出了一个框架，该框架只动态引用每次查询的相关历史记录。
在这一框架中，视频被分为帧或镜头，每次查询都会选择最有意义的上下文。

此外，字幕和本地镜头信息始终被用作基本参考点，从而保证了叙事的连续性和主题的一致性。
结果表明，该系统即使在几分钟的长视频中也能保持较高的准确性和一致性，同时大大降低了计算复杂度。

建议的方法

我们提出的方法，即上下文混合法（MoC），是一种动态上下文选择机制，而不是完全计算自我注意力。

首先，视频被分割成语义一致的片段，如帧、镜头和字幕。
然后，每次查询都会计算均值池所代表的块的特征向量和内积，并选择前 k 个最相关的块进行注意力计算。

此外，它还引入了一种设计，即始终将所有字幕标记作为基本链接与同一镜头内的所有标记相连接，从而在确保本地保真度的同时，将计算资源集中在重要的远距离依赖关系上。
此外，通过强制执行时间方向上的因果关系，避免了循环结构，从而使生成过程不会中断。

这种机制减少了 85% 以上的计算浪费，同时保持了主题的一致性和操作的连续性。
与传统的压缩和固定稀疏化相比，它的特点是灵活和可学习的上下文选择。

实验

作者进行了单镜头和多镜头视频生成实验，以证实所提方法 MoC 的有效性。

现有的长文本生成方法 LCT 被用作基础模型，MoC 取代了它的自注意层，以进行比较。
使用 VBench 进行评估，评估指标包括主体一致性、背景一致性、动作流畅性和动态程度。

结果表明，在短视频中保持与密集自我注意相同或更高精度的同时，长视频的计算量减少到了七分之一以下，生成速度提高了 2.2 倍。
特别是在动作的多样性和场景的一致性方面都有所改进，克服了传统方法因信息压缩而导致的性能下降问题。

此外，MoC 在零镜头实验中表现出很高的稳定性，证实了它对其他扩散模型的适用性。
这些结果表明，MoC 在生成长视频方面既高效又富有表现力。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。