小一在读论文(二)--Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling
写在前面
本文主要用于新手对文章的理解以及本人回顾时使用,不保证完全准确,仅供参考。
本论文的发表日期是2017年,可能会有时效性,请注意!
对读者的要求:简单了解卷积神经网络;有基础的数理知识(概率,矩阵,积分等);了解GAN的基础原理(什么是生成器,什么是判别器);简单的svm知识
先放上原文链接:原文链接
由于本人能力有限,若有错误恳请各位斧正!
原文分析
摘要
提出了生成3D物体的新框架-3DGAN,这是一个在概率空间生成3D物体的模型。本模型受益于体素在CNN(卷积神经网络)和GAN(生成对抗网络)上的应用。有如下三个优势:
- 使用对抗标准而不是传统的启发式标准。优势:模型可以更好的使用于捕获物体结构以及物体的塑造。
- 建立了从低维概率空间到3D物体所在空间的映射。优势:模型的生成不依赖参考图片或者CAD模型,可以生成的种类更加多样。
- GAN的判别器提供了非监督的3D物体鉴别器具有广泛的应用领域。优势:非监督的学习方法成本会更低。
1.简介
对生成式3D模型有两个要求:
- 生成结果多样化(不依赖于记忆或者已存在的预定义库)
- 生成结果逼真(体现更多细节)
以前的网格或骨架似的生成模型都是在对CAD生成的物体进行组合,虽然逼真,但并不满足需求。
随着深度学习的发展,基于大规模的CAD物体库(例如:shapeNet)的生成模型有了长足的发展。与原来基于零件的生成模型的思路是不一样的,它尝试去学习物体的表示方法。但由于维度相对2维更高,就会有很大的困难。
本文展示的GAN思路可能会在两个方向都有较大的发展。本文结合了GAN和体积卷积网络的成果。此模型使用GAN中的判别器对物体进行真伪判别。GAN的判别器可能能够捕捉两个3D
物体之间的结构茶艺。生成对抗的损失也有效的避免了过拟合。
GAN还有一些其他优势:
- 使得从隐空间采样新颖的物体成为可能;
- 判别器能够识别3D对象的信息(见第四部分);
- 无监督学习就可以进行物体的识别与生成 ;
我们的模型在生成3D物体和识别3D物体上与最新的监督模型性能相差不大,远远超过了别的非监督方法。而且有着广阔的应用空间。比如可以结合VAE(可见上一篇)来实现从2D输入到3D物体重建的过程。GAN可以携带更多的3D物体分形信息。
2.相关工作
- 3D对象的合成与建模
- 作用于3D物体的深度学习
- 用对抗网络学习
3D-GAN生成器的展示图,判别器往往是生成器的镜像。
3.模型
我们将介绍体素卷积网络和GAN以及VAE,VAE是为了捕捉从2D图像到3D物体的映射存在的。
3.1 3D-GAN
首先这是一个GAN。生成器映射了一个200维的隐向量,从概率空间随机采样出一个64x64x64的立方体来表示在3D空间中的物体。生成器输出D(x)来表示输入的东西是合成的还是真实的。
我们使用二元交叉熵做为分类损失,并将总得对抗损失表示为
L 3 D − G A N = l o g D ( x ) + l o g ( 1 − l o g D ( G ( z ) ) L_{3D-GAN}=logD(x)+log(1-logD(G(z)) L3D−GAN=logD(x)+log(1−logD(G(z))
其中x是真实物体中采样出来的64x64x64的内容,z是从p(z)分布中采样得到的噪声。z的每一维都是[0,1]上的均匀分布。
网络结构
生成器由五层体素全连接卷积神经网络构成,核的大小是4x4x4,步长为2,层与层之间加入batch normalization和RELU,最后一层加入sigmoid激活函数,判别器就是生成器的镜像,只是把RELU换成了LeakyRELU。没有池化层和线性层。
训练细节
由于判别器训练的远比生成器训练的快,所以我们只在判别器的最后的准确率小于80%时更新判别器。将生成器的学习率设置为0.0025,D的学习率设置为 1 0 − 5 10^{-5} 10−