目前 BigGAN 或 StyleGAN 等深度生成模型已经能生成极其逼真的图像,而且这种图像还是高分辨率的,种类也非常丰富。然而生成自然连贯的视频仍然是极具挑战的领域,它要求更复杂的数据与更多的计算力。
PaddleGAN开源表情动作迁移算法(一张源图片和一个驱动视频)

videogan:可视化了前景和背景生成的信息
连接
在 Generator 中具体使用的网络结构如图所示。网络将前景和背景分开生成,随后通过一个Mask 加权将前景和背景结合。下路网络使用2D的 Transpose Conv 来建模背景,上路使用3D的Transpose Conv来建模前景和 Mask,3D卷积能够同时提取时序和空间的信息,其作用相当于ConvLstm网络,但在实现中更加简单。背景图片通过扩张成 3D 和前景信息进行加权得到最终的视频输出.

DVD-GAN:怪异视频生成器


左
侧
生
成
器
,
右
侧
判
别
器
左侧生成器,右侧判别器
左侧生成器,右侧判别器
当前,深度学习模型如BigGAN和StyleGAN已能生成高分辨率的静态图像,但生成连贯视频仍具挑战。PaddleGAN开源的表情动作迁移算法实现了这一目标,通过分离前景和背景生成,并利用3D TransposeConv建模,生成逼真的视频效果。DVD-GAN则是一个用于生成怪异视频的工具,其生成器和判别器的设计旨在捕捉时空信息。这些技术为视频生成领域带来了新的突破。
743

被折叠的 条评论
为什么被折叠?



