论文速览（05）

最新推荐文章于 2026-01-04 01:14:20 发布

原创最新推荐文章于 2026-01-04 01:14:20 发布 · 298 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #人工智能

计算机视觉同时被 3 个专栏收录

6 篇文章

订阅专栏

深度学习

3 篇文章

订阅专栏

人工智能

3 篇文章

订阅专栏

本文介绍一种新的生成模型评估方法：对抗网络。通过同时训练生成器与判别器，前者试图模仿真实数据分布，后者则区分真假数据，形成零和博弈。最终，生成器能生成高度逼真的数据。

Generative Adversarial Nets

Ian J. Goodfellow et al.

摘要

本文评估生成模型的新方法：对抗网络。同时训练生成器与判别器，生成器的目的是拟合出真实数据的分布，判别器的目的是评估样本为真实数据而非生成数据的概率。
在训练过程中，生成器尽最大努力使判别器误判，而判别器将尽最大努力作出正确判断。这实质上为零和博弈，结果为生成器可以复原真实数据分布，生成高度伪造的数据，以假乱真，使得判别器对每个样本判断结果为 $12\frac{1}{2}$ .

概述

文中探究了一种简单情形：生成模型为一个多层感知机，往其中输入随机噪声数据，得到输出的生成样本。而判别器也是一个多层感知机。假设随机噪声 $z$ 的的分布为 $p_z(z)$ ，生成器 $G$ 生成的数据分布为 $pg(z)=G(z;θg)p_g(z)=G(z;\theta_g)$ ，其中 $θg\theta_g$ 为生成器 $G$ 的参数，生成器 $G$ 的目标就是使已知分布 $p_g(z)$ 尽量接近未知的真实数据分布 $p_{data}(x)$ ，判别器 $D$ 的输出为 $D(x;θd)D(x;\theta_d)$ ，是一个标量，表示数据 $x$ 为真实数据的概率。
根据交叉熵损失，可以构造出如下损失函数：
$V(D,G)=E_{x\sim p_{data}(x)}[\log D(x)]+E_{z\sim p_{z}(z)}[\log (1-D(G(z)))]$
训练中， $D, G$ 的目的各不相同， $G$ 希望其生成的数据越接近真实越好，换言之， $G$ 希望 $D (G (z))$ 尽可能大（即接近1），这将使得 $V (D, G)$ 变小。
$D$ 希望其鉴别数据真伪的能流越强越好，换言之， $D$ 希望 $D (x)$ 尽可能大（即接近1）， $D (G (z))$ 尽可能小（即接近0），这将使得 $V (D, G)$ 变大。
综合来看，训练目标为：
$min_G \max_D V(D,G)$

注意

实际上，上述损失函数 $V (D, G)$ 中训练方式 $min_G \log (1-D(G(z))$ 不能为 $G$ 的训练提供足够大的梯度，因为在训练初始阶段， $G$ 的伪造性能还很差， $D$ 可以轻易鉴别真伪，给出很高的置信度来区分生成样本与真实样本。此时对任意的输入噪声 $z$ ， $D (G (z))$ 都几乎为0， $log⁡(1−D(G(z))\log (1-D(G(z))$ 也几乎为0，处于饱和状态，只能为 $G$ 提供很小的梯度。如果用 $max_G \log (D(G(z))$ 的方式训练 $G$ ，则尤为不同，由于 $D (G (z))$ 几乎为0，故 $log⁡(D(G(z))\log (D(G(z))$ 存在着很大的绝对值，可以为 $G$ 的训练提供更强烈的梯度。

训练算法：

(请忽视以下的‘——’)
for 总训练迭代次数:
——for k 步: //进判别器 $D$ 行训练
————从已知的噪声分布 $P_z(z)$ 中选出 $m$ 个样本 ${z(1),...,z(m)}\left\{z^{(1)},...,z^{(m)} \right\}$
————从训练数据中选出 $m$ 个样本 ${x(1),...,x(m)}\left\{x^{(1)},...,x^{(m)} \right\}$
————设判别器 $D$ 的参数为 $θd\theta_d$ ，通过加上如下梯度来更新判别器 $D$ ：
———— $∇θd1m∑i=1m[log⁡D(x)+log⁡(1−D(G(z)))]\nabla_{\theta_d}\frac{1}{m}\sum^m_{i=1}[\log D(x)+\log (1-D(G(z)))]$

——for 1 步: //进生成器 $G$ 行训练
————从已知的噪声分布 $P_z(z)$ 中选出 $m$ 个样本 ${z(1),...,z(m)}\left\{z^{(1)},...,z^{(m)} \right\}$
————设判别器 $G$ 的参数为 $θg\theta_g$ ，通过减去如下梯度来更新判别器 $D$ ：
———— $∇θg1m∑i=1mlog⁡(1−D(G(z)))\nabla_{\theta_g}\frac{1}{m}\sum^m_{i=1}\log (1-D(G(z)))$