视频合成—NeurIPS2018—Video-to-Video Synthesis

最新推荐文章于 2025-01-20 10:23:51 发布

原创

最新推荐文章于 2025-01-20 10:23:51 发布 · 1k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#音视频 #AIGC #人工智能 #生成对抗网络 #论文阅读

文章目录

Video-to-Video Synthesis
1、背景
2、整体思路
3、方法
4、实验效果

Video-to-Video Synthesis

github：https://github.com/NVIDIA/vid2vid
论文地址：https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf
代码后续进行讲解～～

1、背景

视频——》草图——〉视频合成
学习从输入源视频(例如，一系列语义分割掩码)到精确描述源视频内容的输出逼真视频的映射函数。

2、整体思路

在没有对时间动态建模的情况下，直接将现有的图像合成方法应用于输入视频通常会导致低视觉质量的时间不连贯的视频。

在本文中，提出了一种在生成对抗学习框架下的视频到视频合成方法。通过精心设计的生成器和鉴别器，再加上时空对抗目标，我们在包括分割蒙版、草图和姿势在内的多种输入格式上实现了高分辨率、逼真、时间连贯的视频结果。

3、方法

令 $s_1^T\equiv \left \{ s_1,s_2,...,s_T \right \}$ 为源视频帧序列。例如，它可以是语义分割掩模或边缘图的序列。令 $x_1^T\equiv \left \{ x_1,x_2,...,x_T \right \}$ 为对应的真实视频帧的序列。
视频到视频合成的目标是学习一个映射函数，可以将 $s_1^T$ 转换为输出视频帧序列， $\widetilde{x}_1^T\equiv \left \{\widetilde{x}_1,\widetilde{x}_2,...,\widetilde{x}_T \right \}$ ，使得条件分布给定 $s_1^T$ 的 $\widetilde{x}_1^T$ 的条件分布与给定 $s_1^T$ 的 $x_1^T$ 的条件分布相同
$p(\widetilde{x}_1^T|s_1^T)=p({x}_1^T|s_1^T)$

通过匹配条件视频分布，该模型学习生成逼真的、时间连贯的输出序列，就像它们是由摄像机捕获的一样。
我们为这个条件视频分布匹配任务提出了一个条件 GAN 框架。令 $G$ 为将输入源序列映射到相应输出帧序列的生成器： $x_1^T = G(s_1^T )$ 。我们通过解决下式给出的极小极大优化问题来训练生成器:
$\underset{D}{max}\underset{G}{min} E_{(x_1^T,s_1^T)}[\log_{}{D}(x_1^T,s_1^T)]+E_{s_1^T}[\log_{}{(1-D(G(s_1^T),S_1^T ))}]$
$D$ 是鉴别器，在求解上式时，我们最小化了 $p(\widetilde{x}_1^T|s_1^T)$

最低0.47元/天解锁文章