Global versus Localized Generative Adversarial Nets
作者首先给出了传统GANGANGAN网络的表述:首先由噪声分布PzP_zPz采样得到流型M=G(z)∣z PzM={G(z)|z ~P_z}M=G(z)∣z Pz,所谓的Global指的就是zzz为一个RNR^NRN空间的全局坐标,而G(z)G(z)G(z),即生成的样本则是RDR^DRD空间的点。
这种全局坐标的缺点在于,给定一个X=G(z)X=G(z)X=G(z),无法简便的得到相应的zzz,更糟糕的是如果在XXX周围的切空间TxT_xTx如果不是一个由NNN个线性无关的向量组成的NNN维空间(这里不是很懂为什么XXX的附近是一个NNN维切空间,按说XXX是位于RDR^DRD空间的)那么就会发生locally collapsed,意思是在XXX附近无论zzz在什么方向上变化都无法产生连续变化的G(z)G(z)G(z)了。
作者为此提出了LGAN,在XXX周围产生了局部坐标图G(x,z)G(x,z)G(x,z),作者认为应该有G(x,0)=xG(x,0)=xG(x,0)=x。
当在XXX的周围改变zjz_jzj(z的一个分量)而固定其他分量时,生成的G(x,z)G(x,z)G(x,z)就会在流型上生成一个曲线。由此定义了切向量Txj=dG(x,z)dzj∣z=0T_x^j=\frac{dG(x,z)}{dz^j}|z=0Txj=dzjdG(x,z)∣z=0这是一个DDD维的向量,即DDD维向量G(x,z)G(x,z)G(x,z)对zzz的其中一个维度(方向)上求导数。TxT_xTx是一个N∗DN*DN∗D的雅可比矩阵。
为了防止之前所说的locally collapse,需要对TxT_xTx加入正交约束,即<Txi,Txj>=δij<T^i_x,T^j_x>=\delta_{ij}<Txi,Txj>=δij当i!=ji!=ji!=j时为0,当j=ij=ij=i时为1.
因此G(x,z)G(x,z)G(x,z)需要满足上面两条约束。即G(x,0)=xG(x,0)=xG(x,0)=x以及JxTJx=INJ_x^{T}J_x=I_NJxTJx=IN,其中JJJ为上面提到的雅克比矩阵。
因此引入了新的损失函数:ωG(x)=μ∣∣G(x,0)−x∣∣2+η∣∣JxTJx−IN∣∣2\omega_{G}(x)=\mu||G(x,0)-x||^2+\eta||J_x^{T}J_x-I_N||^2ωG(x)=μ∣∣G(x,0)−x∣∣2+η∣∣JxTJx−IN∣∣2
这个损失函数被添加在generator训练中,即minG−logD(G(x,z))+ωG(x)min_G -logD(G(x,z))+\omega _G(x)minG−logD(G(x,z))+ωG(x)
网络结构
generator的结构:
输入图片,经过卷积层映射为32x1x1特征图,与相同维度的噪声z相加,然后进行反卷积生成G(x,z)G(x,z)G(x,z),D网络的结构与传统GAN网络相同。
作者在celeb-A数据集上进行了实验。在这个数据集上作者使用了32维的局部坐标(即zzz是N=32的向量),图中的每一行是改变32维中的1维然后保持其他维度不变得到的,即在某个方向上进行移动。