视频修复MTV-Inpaint: Multi-Task Long Video Inpainting

Qing_er爱吃山竹

于 2025-03-26 11:05:01 发布

阅读量443

点赞数 7

文章标签：视频修复

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Qing__er/article/details/146523579

版权

论文作者：Shiyuan Yang,Zheng Gu,Liang Hou,Xin Tao,Pengfei Wan,Xiaodong Chen,Jing Liao

作者单位：City University of Hong Kong ;Tianjin University;Shenzhen University;Kuaishou Technology;

论文链接：http://arxiv.org/abs/2503.11412v1

项目链接：https://mtv-inpaint.github.io/

内容简介：

1）方向：视频修复

2）应用：视频修复

3）背景：现有的视频修复方法大多集中在场景补全（即填补缺失区域），而无法在可控的方式下向场景中插入新对象。尽管最近文本到视频（T2V）扩散模型取得了进展，但直接应用T2V模型进行修复存在完成与插入任务无法统一、缺乏输入可控性及无法处理长视频等问题，限制了其应用和灵活性。

4）方法：本文提出了MTV-Inpaint，一个统一的多任务视频修复框架，能够处理传统的场景补全任务以及新对象插入任务。MTV-Inpaint采用了双分支空间注意力机制，集成了T2V扩散U-Net模型，能够无缝地在单一框架中同时进行场景补全和对象插入。此外，MTV-Inpaint支持通过我们提出的图像到视频（I2V）修复模式，结合多种图像修复模型进行多模态控制。框架还采用了两阶段流水线，将关键帧修复与帧间传播结合起来，能够有效处理包含数百帧的长视频。

5）结果：通过大量实验验证，MTV-Inpaint在场景补全和对象插入任务中取得了最先进的性能。此外，MTV-Inpaint在多模态修复、对象编辑、移除、图像对象刷等派生应用中展示了出色的多功能性，并能够处理长视频。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Qing_er爱吃山竹 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。