视频合成—NeurIPS2018—Video-to-Video Synthesis

Video-to-Video Synthesis

github:https://github.com/NVIDIA/vid2vid
论文地址:https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf
代码后续进行讲解~~

1、背景

视频——》草图——〉视频合成
学习从输入源视频(例如,一系列语义分割掩码)到精确描述源视频内容的输出逼真视频的映射函数。

2、整体思路

在没有对时间动态建模的情况下,直接将现有的图像合成方法应用于输入视频通常会导致低视觉质量的时间不连贯的视频。

在本文中,提出了一种在生成对抗学习框架下的视频到视频合成方法。通过精心设计的生成器和鉴别器,再加上时空对抗目标,我们在包括分割蒙版、草图和姿势在内的多种输入格式上实现了高分辨率、逼真、时间连贯的视频结果。

3、方法

s 1 T ≡ { s 1 , s 2 , . . . , s T } s_1^T\equiv \left \{ s_1,s_2,...,s_T \right \} s1T{ s1,s2,...,sT}为源视频帧序列。例如,它可以是语义分割掩模或边缘图的序列。令 x 1 T ≡ { x 1 , x 2 , . . . , x T } x_1^T\equiv \left \{ x_1,x_2,...,x_T \right \} x1T{ x1,x2,...,xT} 为对应的真实视频帧的序列。
视频到视频合成的目标是学习一个映射函数,可以将 s 1 T s_1^T s1T转换为输出视频帧序列, x ~ 1 T ≡ { x ~ 1 , x ~ 2 , . . . , x ~ T } \widetilde{x}_1^T\equiv \left \{\widetilde{x}_1,\widetilde{x}_2,...,\widetilde{x}_T \right \} x 1T{ x 1,x 2,...,x T},使得条件分布给定 s 1 T s_1^T s1T x ~ 1 T \widetilde{x}_1^T x 1T的条件分布与给定 s 1 T s_1^T s1T x 1 T x_1^T x1T的条件分布相同
p ( x ~ 1 T ∣ s 1 T ) = p ( x 1 T ∣ s 1 T ) p(\widetilde{x}_1^T|s_1^T)=p({x}_1^T|s_1^T) p(x 1Ts1T)=p(x1Ts1T)

通过匹配条件视频分布,该模型学习生成逼真的、时间连贯的输出序列,就像它们是由摄像机捕获的一样。
我们为这个条件视频分布匹配任务提出了一个条件 GAN 框架。令 G G G 为将输入源序列映射到相应输出帧序列的生成器: x 1 T = G ( s 1 T ) x_1^T = G(s_1^T ) x1T=G(s1T)。我们通过解决下式给出的极小极大优化问题来训练生成器:
m a x D m i n G E ( x 1 T , s 1 T ) [ log ⁡ D ( x 1 T , s 1 T ) ] + E s 1 T [ log ⁡ ( 1 − D ( G ( s 1 T ) , S 1 T ) ) ] \underset{D}{max}\underset{G}{min} E_{(x_1^T,s_1^T)}[\log_{}{D}(x_1^T,s_1^T)]+E_{s_1^T}[\log_{}{(1-D(G(s_1^T),S_1^T ))}] DmaxGminE(x1T,s1T)[logD(x1T,s1T)]+Es1T[log(1D(G(s1T),S1T))]
D D D是鉴别器,在求解上式时,我们最小化了 p ( x ~ 1 T ∣ s 1 T ) p(\widetilde{x}_1^T|s_1^T) p(x 1

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值