这篇论文介绍了一种生成图像集的模型,它基于能量模型。该模型包含编码器、解码器(生成器)、判别器,并使用一系列数学公式。最终结果是能够生成图像集的模型,其中图像集指的是同一物体的不同视角。该模型甚至可以生成从未见过的图像集,这与条件生成对抗网络(CGAN)等模型不同。
论文展示了若干图像集样本,其中上排是来自真实数据集的图像,下排是模型重建的图像。需要注意的是,图像之间没有对应关系,比如上排和下排都是同一辆卡车,但它们的朝向不同。这是因为模型处理的是图像集,而不是单个图像。
该模型的目标是将图像集编码成一个潜在描述(Z),该描述包含图像集的整体信息,例如卡车的3D模型,但不包含视角信息。然后,模型使用另一个模型从这个潜在描述生成不同视角的图像,就好像对卡车进行旋转一样。
模型通过像素信息识别图像集的共性,例如3D结构,并将其编码到潜在描述中。同时,模型也编码了视角信息,用于生成不同视角的图像。由于模型处理的是图像集,因此图像之间没有对应关系。
最终目标是使生成的图像集与真实图像集尽可能相似。
我们已经非常擅长为图像和图像类别创建生成模型,但尚未为图像集创建生成模型,尤其是在图像集数量未知且可能包含训练期间从未遇到过的图像集时。本文基于变分方法构建了一个图像集生成模型的概率框架和实际实现。概述:0:00 - 简介和概述1:25 - 问题陈述8:05 - 架构概述20:05 - 概率模型33:50 - 似然函数40:30 - 模型架构44:20 - 损失函数和优化47:30 - 结果58:45 - 结论论文:https://arxiv.org/abs/2006.10705
摘要:具有共享特征的图像自然地形成集合。例如,在人脸验证基准中,同一身份的图像形成集合。对于生成模型,处理集合的标准方法是将每个集合表示为一个独热向量,并学习一个条件生成模型 p(x|y)。这种表示假设集合的数量有限且已知,因此集合的分布简化为一个简单的多项式分布。相反,我们研究了一个更通用的问题,其中集合的数量很大且未知。我们引入了集合分布网络 (SDN),这是一个新颖的框架,它学习对集合进行自动编码和自由生成。我们通过联合学习集合编码器、集合鉴别器、集合生成器和集合先验来实现这一点。我们表明,SDN 能够重建保留输入在我们的基准数据集中的显着属性的图像集,并且还能够生成新颖的对象/身份。我们分别使用预训练的 3D 重建网络和人脸验证网络来检查 SDN 生成的集合,作为一种评估生成的图像集合质量的新方法。