49、生成对抗网络与强化学习：合成新数据与复杂环境决策

js777

于 2025-11-13 11:02:45 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握机器学习核心技能文章标签：生成对抗网络 Wasserstein距离 WGAN-GP

本文链接：https://blog.youkuaiyun.com/js777/article/details/154923400

掌握机器学习核心技能专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

生成对抗网络与强化学习：合成新数据与复杂环境决策

1. 利用EM距离训练GAN模型

在训练GAN模型时，可以使用EM距离来衡量真实样本分布 (P_r) 和生成样本分布 (P_g) 之间的差异。不过，计算EM距离本身是一个优化问题，计算复杂度较高，尤其是在GAN训练的每次迭代中重复计算时。幸运的是，可以使用Kantorovich - Rubinstein对偶定理简化计算，公式如下：
[W(P_r, P_g) = \sup_{|f| L\leq1} E {u\in P_r}[f(u)] - E_{v\in P_g}[f(v)]]
这里的上确界是对所有1 - Lipschitz连续函数 (f) （即 (|f|_L\leq1) ）取的。

1.1 寻找1 - Lipschitz连续函数

为了计算GAN中真实输出分布 (P_r) 和虚假输出分布 (P_g) 之间的Wasserstein距离，我们可以训练一个神经网络模型来近似Wasserstein距离函数。在简单GAN中，判别器是一个分类器；而在WGAN中，判别器可以作为一个评判器，返回一个标量分数，用于表示输入图像的真实程度。

1.2 Lipschitz连续性

1.3 定义损失函数

使用Wasserstein距离训练GAN时，判别器 (D) 和生成器 (G) 的损失函数定义如下：
- 判别器的真实损失分量：(L_D^{real} = -\frac{1}{N}\sum_{i}D(x_i))
- 判别器的虚假损失分量：(L_D^{fake} = \frac{1}{N}\sum_{i}D(G(z_i)))
- 生成器的损失：(L_G = -\frac{1}{N}\sum_{i}D(G(z_i)))

为了在训练过程中保持评判器函数的1 - Lipschitz性质，WGAN论文建议将权重限制在一个小区域内，例如 ([-0.01, 0.01])。

1.4 梯度惩罚

权重裁剪可能会导致梯度爆炸和消失，以及容量利用不足的问题。因此，Ishaan Gulrajani等人提出了梯度惩罚（GP）作为替代方案，得到了带有梯度惩罚的WGAN（WGAN - GP）。梯度惩罚的添加步骤如下：
1. 对于给定批次中的每对真实和虚假示例 ((x[i], \tilde{x}[i]))，选择一个从均匀分布中采样的随机数 (\alpha[i])，即 (\alpha[i] \in U(0, 1))。
2. 计算真实和虚假示例之间的插值：(\check{x}[i] = \alpha x[i] + (1 - \alpha)\tilde{x}[i])，得到一批插值示例。
3. 计算判别器（评判器）对所有插值示例的输出 (D(\check{x}[i]))。
4. 计算评判器输出相对于每个插值示例的梯度 (\nabla_{\check{x}[i]}D(\check{x}[i]))。
5. 计算梯度惩罚：(L_{D}^{gp} = \frac{1}{N}\sum_{i}(|\nabla_{\check{x}[i]}D(\check{x}[i])|_2 - 1)^2)

判别器的总损失为：
[L_D^{total} = L_D^{real} + L_D^{fake} + \lambda L_{D}^{gp}]
其中，(\lambda) 是一个可调整的超参数。

1.5 实现WGAN - GP训练DCGAN模型

以下是构建DCGAN模型的代码：

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

# 假设已经定义了make_dcgan_generator()和make_dcgan_discriminator()函数
num_epochs = 100
batch_size = 128
image_size = (28, 28)
z_size = 20
mode_x = 'uniform'
lambda_gp = 10.0
tf.random.set_seed(1)
np.random.seed(1)

# 设置数据集
mnist_trainset = mnist['train']
mnist_trainset = mnist_trainset.map(preprocess)
mnist_trainset = mnist_trainset.shuffle(10000)
mnist_trainset = mnist_trainset.batch(batch_size, drop_remainder=True)

# 设置模型
device_name = '/GPU:0' if tf.test.is_gpu_available() else '/CPU:0'
with tf.device(device_name):
    gen_model = make_dcgan_generator()
    gen_model.build(input_shape=(None, z_size))

    disc_model = make_dcgan_discriminator()
    disc_model.build(input_shape=(None, np.prod(image_size)))

训练模型的代码如下：

import time

# 优化器
g_optimizer = tf.keras.optimizers.Adam(0.0002)
d_optimizer = tf.keras.optimizers.Adam(0.0002)

if mode_z == 'uniform':
    fixed_z = tf.random.uniform(shape=(batch_size, z_size), minval=-1, maxval=1)
elif mode_z == 'normal':
    fixed_z = tf.random.normal(shape=(batch_size, z_size))

def create_samples(g_model, input_z):
    g_output = g_model(input_z, training=False)
    images = tf.reshape(g_output, (batch_size, *image_size))
    return (images + 1) / 2.0

all_losses = []
epoch_samples = []
start_time = time.time()

for epoch in range(1, num_epochs + 1):
    epoch_losses = []

    for i, (input_z, input_real) in enumerate(mnist_trainset):
        with tf.GradientTape() as d_tape, tf.GradientTape() as g_tape:
            g_output = gen_model(input_z, training=True)

            d_critics_real = disc_model(input_real, training=True)
            d_critics_fake = disc_model(g_output, training=True)

            # 计算生成器的损失
            g_loss = -tf.math.reduce_mean(d_critics_fake)

            # 计算判别器的损失
            d_loss_real = -tf.math.reduce_mean(d_critics_real)
            d_loss_fake = tf.math.reduce_mean(d_critics_fake)
            d_loss = d_loss_real + d_loss_fake

            # 梯度惩罚
            with tf.GradientTape() as gp_tape:
                alpha = tf.random.uniform(shape=[d_critics_real.shape[0], 1, 1, 1], minval=0.0, maxval=1.0)
                interpolated = (alpha * input_real + (1 - alpha) * g_output)
                gp_tape.watch(interpolated)
                d_critics_intp = disc_model(interpolated)

            grads_intp = gp_tape.gradient(d_critics_intp, [interpolated,])[0]
            grads_intp_l2 = tf.sqrt(tf.reduce_sum(tf.square(grads_intp), axis=[1, 2, 3]))
            grad_penalty = tf.reduce_mean(tf.square(grads_intp_l2 - 1.0))

            d_loss = d_loss + lambda_gp * grad_penalty

        # 优化：计算梯度并应用
        d_grads = d_tape.gradient(d_loss, disc_model.trainable_variables)
        d_optimizer.apply_gradients(grads_and_vars=zip(d_grads, disc_model.trainable_variables))

        g_grads = g_tape.gradient(g_loss, gen_model.trainable_variables)
        g_optimizer.apply_gradients(grads_and_vars=zip(g_grads, gen_model.trainable_variables))

        epoch_losses.append((g_loss.numpy(), d_loss.numpy(), d_loss_real.numpy(), d_loss_fake.numpy()))

    all_losses.append(epoch_losses)
    print('Epoch {:03d} | ET {:.2f} min | Avg Losses >> G/D {:6.2f}/{:6.2f} [D-Real: {:6.2f} D-Fake: {:6.2f}]'.format(
        epoch, (time.time() - start_time) / 60, *list(np.mean(all_losses[-1], axis=0))))
    epoch_samples.append(create_samples(gen_model, fixed_z).numpy())

最后，可视化保存的示例，观察模型的学习过程和合成示例质量的变化：

selected_epochs = [1, 2, 4, 10, 50, 100]
fig = plt.figure(figsize=(10, 14))

for i, e in enumerate(selected_epochs):
    for j in range(5):
        ax = fig.add_subplot(6, 5, i * 5 + j + 1)
        ax.set_xticks([])
        ax.set_yticks([])
        if j == 0:
            ax.text(-0.06, 0.5, 'Epoch {}'.format(e), rotation=90, size=18, color='red',
                    horizontalalignment='right', verticalalignment='center', transform=ax.transAxes)

        image = epoch_samples[e - 1][j]
        ax.imshow(image, cmap='gray_r')

plt.show()

1.6 模式崩溃及解决技巧

GAN模型训练困难，常见的失败原因之一是生成器陷入一个小子空间，只能生成相似的样本，这被称为模式崩溃。为了解决这个问题，可以采用以下技巧：
- 小批量判别 ：将仅包含真实或虚假示例的批次分别输入判别器，让判别器比较这些批次中的示例，判断批次的真实性。
- 特征匹配 ：对生成器的目标函数进行微小修改，添加一个额外项，以最小化基于判别器中间表示（特征图）的原始图像和合成图像之间的差异。
- 经验回放 ：存储一些旧示例并输入判别器，防止生成器回到之前的模式。
- 多GAN训练 ：使用不同的随机种子训练多个GAN，使它们的组合能够覆盖更大的数据分布。

2. GAN的其他应用

GAN的应用领域正在迅速扩展，包括计算机视觉、机器学习以及其他科学和工程领域。除了无监督学习，GAN方法还可以推广到半监督和监督任务。
- 条件GAN（cGAN） ：使用类标签信息，学习根据给定标签合成新图像，例如在MNIST数据集中选择性地生成0 - 9的不同数字。
- Pix2Pix算法 ：用于图像到图像的翻译，判别器对图像的多个补丁进行真实/虚假预测。
- CycleGAN ：基于cGAN构建，用于图像到图像的翻译，但训练示例来自两个未配对的域，例如将夏天的照片转换为冬天的照片，或者将马转换为斑马。

3. 强化学习基础

强化学习（RL）是一种不同的机器学习类别，它专注于学习一系列动作以优化整体奖励，例如在国际象棋游戏中获胜。

3.1 强化学习与其他学习类型的区别

与监督学习和无监督学习不同，强化学习通过与环境的交互来学习，以最大化奖励函数。在监督学习中，我们依赖有标签的训练示例，目标是训练一个能够对未见过的测试示例进行良好泛化的模型；在无监督学习中，目标是学习或捕捉数据集的潜在结构。而在强化学习中，正确的动作标签不是预先定义的，而是需要通过与环境的交互来学习，以实现特定的期望结果。

3.2 强化学习的工作原理

强化学习中的模型（也称为智能体）与环境进行交互，生成一系列交互序列，称为一个回合。在每个回合中，智能体根据环境的反馈收集奖励，这些奖励可以是正的或负的，有时直到回合结束才会披露给智能体。

例如，教计算机玩国际象棋时，每个棋子移动的奖励直到游戏结束才知道，因为在游戏过程中，我们不知道某个特定的移动是否会导致获胜或失败。只有在游戏结束时，才能根据结果确定奖励。

3.3 强化学习的应用

强化学习不仅在游戏和机器人领域有应用，在自然界中也能找到例子。例如，训练狗时，当狗执行某些期望的动作时，我们会给予奖励（零食）；训练医疗犬预警癫痫发作也是类似的原理，虽然我们不知道狗检测癫痫发作的具体机制，但可以通过奖励来强化这种行为。

3.4 强化学习的学习内容

本章将涵盖以下内容：
- 学习强化学习的基础知识，熟悉智能体/环境交互，理解奖励过程，以帮助在复杂环境中做出决策。
- 介绍不同类别的强化学习问题，包括基于模型和无模型的学习任务、蒙特卡罗和时间差分学习算法。
- 以表格形式实现Q - 学习算法。
- 理解用于解决强化学习问题的函数逼近，并通过实现深度Q - 学习算法将强化学习与深度学习相结合。

以下是WGAN - GP梯度惩罚计算的流程图：

graph TD;
    A[选择随机数α] --> B[计算插值示例];
    B --> C[计算判别器输出];
    C --> D[计算梯度];
    D --> E[计算梯度惩罚];

通过对生成对抗网络和强化学习的学习，我们可以在合成新数据和复杂环境决策等领域取得更好的成果。生成对抗网络可以帮助我们生成高质量的合成数据，而强化学习则可以让智能体在复杂环境中学习到最优的决策策略。

4. 强化学习的问题分类

4.1 基于模型和无模型学习

强化学习问题可以分为基于模型和无模型学习两类。
| 类型 | 特点 |
| — | — |
| 基于模型学习 | 智能体学习环境的动态模型，即状态转移概率和奖励函数。通过这个模型，智能体可以预测未来的状态和奖励，从而做出决策。例如，在一个迷宫游戏中，智能体可以学习到每个位置移动到其他位置的概率以及对应的奖励，然后根据这些信息规划最优路径。 |
| 无模型学习 | 智能体不学习环境的动态模型，而是直接从与环境的交互中学习最优策略。它通过不断尝试不同的动作，根据得到的奖励来调整策略。例如，在玩一个简单的投币游戏时，智能体不需要知道游戏的具体规则，只需要通过不断投币尝试，根据获得的奖励来决定是否继续投币。 |

4.2 蒙特卡罗和时间差分学习算法

蒙特卡罗学习

蒙特卡罗方法通过对多个回合的采样来估计状态价值或动作价值。在每个回合结束后，根据整个回合的累积奖励来更新价值估计。例如，在一个赌博游戏中，智能体在每一局结束后，根据这一局的总收益来更新对每个决策的价值估计。

时间差分学习

时间差分方法结合了蒙特卡罗方法和动态规划的思想，它不需要等到回合结束就可以更新价值估计。在每个时间步，根据当前状态的奖励和下一个状态的价值估计来更新当前状态的价值。例如，在一个实时策略游戏中，智能体在每一步行动后，根据当前获得的奖励和对下一步状态的价值估计来更新当前状态的价值。

5. 实现Q - 学习算法

Q - 学习是一种无模型的强化学习算法，用于学习最优动作价值函数 (Q(s, a))，其中 (s) 表示状态，(a) 表示动作。Q - 学习的目标是找到一个策略，使得在每个状态下选择的动作能够最大化长期累积奖励。

5.1 Q - 学习算法步骤

初始化 ：初始化动作价值函数 (Q(s, a)) 为任意值，通常初始化为0。
选择动作 ：在每个状态 (s) 下，根据当前的 (Q) 值选择一个动作 (a)。可以使用 (\epsilon) - 贪心策略，即以 (\epsilon) 的概率随机选择一个动作，以 (1 - \epsilon) 的概率选择 (Q) 值最大的动作。
执行动作 ：执行选择的动作 (a)，观察环境反馈的奖励 (r) 和下一个状态 (s’)。
更新Q值 ：根据以下公式更新 (Q(s, a))：
[Q(s, a) \leftarrow Q(s, a) + \alpha [r + \gamma \max_{a’} Q(s’, a’) - Q(s, a)]]
其中，(\alpha) 是学习率，控制每次更新的步长；(\gamma) 是折扣因子，用于权衡即时奖励和未来奖励。
重复步骤2 - 4 ：直到达到终止条件，例如达到最大回合数或收敛到最优策略。

5.2 代码实现

import numpy as np

# 初始化参数
num_states = 10
num_actions = 4
alpha = 0.1
gamma = 0.9
epsilon = 0.1
num_episodes = 1000

# 初始化Q表
Q = np.zeros((num_states, num_actions))

# 定义环境的状态转移和奖励函数
def get_next_state_and_reward(state, action):
    # 这里简单示例，实际应用中需要根据具体环境定义
    next_state = (state + action) % num_states
    reward = 1 if next_state == 0 else 0
    return next_state, reward

# Q - 学习算法
for episode in range(num_episodes):
    state = np.random.randint(0, num_states)
    done = False

    while not done:
        # 选择动作
        if np.random.uniform(0, 1) < epsilon:
            action = np.random.randint(0, num_actions)
        else:
            action = np.argmax(Q[state, :])

        # 执行动作
        next_state, reward = get_next_state_and_reward(state, action)

        # 更新Q值
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[next_state, :]) - Q[state, action])

        state = next_state

        # 终止条件
        if state == 0:
            done = True

print("Final Q - table:")
print(Q)

6. 函数逼近与深度Q - 学习

6.1 函数逼近

在状态空间和动作空间非常大的情况下，使用表格形式存储 (Q) 值变得不可行。函数逼近方法通过一个参数化的函数（如神经网络）来近似 (Q) 值。这样可以减少存储需求，并且能够泛化到未见过的状态。

6.2 深度Q - 学习（DQN）

深度Q - 学习是将深度学习与Q - 学习相结合的方法，使用深度神经网络来近似动作价值函数 (Q(s, a))。DQN的主要思想是使用经验回放和目标网络来提高学习的稳定性。

6.2.1 经验回放

经验回放是指将智能体的经验（状态、动作、奖励、下一个状态）存储在一个经验池中，然后随机从经验池中采样一批经验进行学习。这样可以打破数据之间的相关性，提高学习效率。

6.2.2 目标网络

目标网络是一个与主网络结构相同的神经网络，用于计算目标 (Q) 值。目标网络的参数定期从主网络复制，这样可以减少目标值的波动，提高学习的稳定性。

6.2.3 深度Q - 学习算法步骤

初始化 ：初始化主网络 (Q) 和目标网络 (\hat{Q}) 的参数，初始化经验池 (D)。
选择动作 ：在每个状态 (s) 下，根据主网络 (Q) 的输出选择一个动作 (a)，使用 (\epsilon) - 贪心策略。
执行动作 ：执行选择的动作 (a)，观察环境反馈的奖励 (r) 和下一个状态 (s’)，将经验 ((s, a, r, s’)) 存储到经验池 (D) 中。
经验回放 ：从经验池 (D) 中随机采样一批经验 ((s_i, a_i, r_i, s_i’))。
计算目标值 ：使用目标网络 (\hat{Q}) 计算目标 (Q) 值：
[y_i = r_i + \gamma \max_{a’} \hat{Q}(s_i’, a’)]
更新主网络 ：使用均方误差损失函数 ((y_i - Q(s_i, a_i))^2) 来更新主网络 (Q) 的参数。
更新目标网络 ：定期将主网络 (Q) 的参数复制到目标网络 (\hat{Q}) 中。
重复步骤2 - 7 ：直到达到终止条件。

以下是深度Q - 学习的流程图：

graph TD;
    A[初始化网络和经验池] --> B[选择动作];
    B --> C[执行动作并存储经验];
    C --> D[经验回放];
    D --> E[计算目标值];
    E --> F[更新主网络];
    F --> G[更新目标网络];
    G --> B;

通过对生成对抗网络和强化学习的深入学习，我们可以在合成新数据和复杂环境决策等领域取得更好的成果。生成对抗网络可以帮助我们生成高质量的合成数据，而强化学习则可以让智能体在复杂环境中学习到最优的决策策略，为解决各种实际问题提供了强大的工具。