19、强化学习中的探索与利用策略及实现-优快云博客

本文链接：https://blog.youkuaiyun.com/c2d3e4f/article/details/154593281

强化学习中的探索与利用策略及实现

1. 探索与利用策略

1.1 ε - Greedy 策略

在强化学习中，平衡探索（explore）和利用（exploit）是一个重要的问题。ε - Greedy 是一种简单的策略，它在每一步都会做出选择：要么采取智能体推荐的最优动作，要么采取随机动作。智能体采取随机动作的概率就是 ε。

以下是 ε - Greedy 策略的 Python 实现：

import random
import numpy as np

def epsilon_greedy_action(action_distribution, epsilon=1e-1):
    if random.random() < epsilon:
        return np.argmax(np.random.random(action_distribution.shape))
    else:
        return np.argmax(action_distribution)

1.2 退火 ε - Greedy 策略

在训练强化学习模型时，通常希望在开始时进行更多的探索，因为模型对环境了解较少。随着模型对环境的了解增加并学习到一个好的策略后，希望智能体更多地相信自己，进一步优化策略。为了实现这一点，我们不再使用固定的 ε，而是让它随时间退火，开始时 ε 较高，然后在每个训练周期后按一定因子减小。

以下是退火 ε - Greedy 策略的 Python 实现：

def epsilon_greedy_action_annealed(action_distribution,
                                   percentage, 
                                   epsilon_start=1.0, 
                                   epsilon_end=1e-2):
    annealed_epsilon = epsilon_start*(1.0-percentage) + epsilon_end*percentage
    if random.random() < annealed_epsilon:
        return np.argmax(np.random.random(action_distribution.shape))
    else:
        return np.argmax(action_distribution)

2. 策略学习与价值学习

在强化学习中，教智能体最大化奖励的方法主要分为两类：策略学习和价值学习。
- 策略学习 ：直接学习一个能最大化奖励的策略。
- 价值学习 ：学习每个状态 - 动作对的价值。

例如，学习骑自行车时，策略学习方法是思考在向左倾斜时踩右踏板如何纠正方向；价值学习方法是为不同的自行车方向和在这些位置可以采取的动作分配分数。

2.1 基于策略梯度的策略学习

在典型的监督学习中，我们可以使用随机梯度下降（SGD）来更新参数，以最小化网络输出和真实标签之间的损失。在强化学习中，虽然没有真实标签，只有奖励信号，但我们仍然可以使用 SGD 通过策略梯度来优化权重。

我们优化的表达式为：
[
\arg \min_{\theta} -\sum_{i} R_{i} \log p(y_{i} | x_{i}; \theta)
]
其中，$y_{i}$ 是智能体在时间步 $t$ 采取的动作，$R_{i}$ 是我们的折扣未来回报。

2.2 解决倒立摆问题的策略梯度智能体

我们将使用 OpenAI Gym 中的倒立摆环境来实现一个基于策略梯度的智能体。

2.2.1 OpenAI Gym

OpenAI Gym 是一个用于开发强化学习智能体的 Python 工具包，它提供了一个易于使用的接口，用于与各种环境进行交互，包含 100 多个常见强化学习环境的开源实现。

2.2.2 创建智能体

我们定义一个 PGAgent 类来创建智能体，它包含模型架构、模型权重和超参数。

import tensorflow as tf
import tensorflow.contrib.slim as slim

class PGAgent(object):
    def __init__(self, session, state_size, num_actions,
                 hidden_size, learning_rate=1e-3, 
                 explore_exploit_setting='epsilon_greedy_annealed_1.0->0.001'):
        self.session = session
        self.state_size = state_size
        self.num_actions = num_actions
        self.hidden_size = hidden_size
        self.learning_rate = learning_rate
        self.explore_exploit_setting = explore_exploit_setting
        self.build_model()
        self.build_training()

    def build_model(self):
        with tf.variable_scope('pg-model'):
            self.state = tf.placeholder(
                shape=[None, self.state_size], 
                dtype=tf.float32)
            self.h0 = slim.fully_connected(self.state, self.hidden_size)
            self.h1 = slim.fully_connected(self.h0, self.hidden_size)
            self.output = slim.fully_connected(
                self.h1, self.num_actions, 
                activation_fn=tf.nn.softmax)

    def build_training(self):
        self.action_input = tf.placeholder(tf.int32, shape=[None])
        self.reward_input = tf.placeholder(tf.float32, shape=[None])

        self.output_index_for_actions = (tf.range(
            0, tf.shape(self.output)[0]) * tf.shape(self.output)[1]) + self.action_input
        self.logits_for_actions = tf.gather(
            tf.reshape(self.output, [-1]), self.output_index_for_actions)
        self.loss = - tf.reduce_mean(tf.log(self.logits_for_actions) * self.reward_input)
        self.optimizer = tf.train.AdamOptimizer(learning_rate=self.learning_rate)
        self.train_step = self.optimizer.minimize(self.loss)

    def sample_action_from_distribution(self, action_distribution, epsilon_percentage):
        if self.explore_exploit_setting == 'greedy':
            action = greedy_action(action_distribution)
        elif self.explore_exploit_setting == 'epsilon_greedy_0.05':
            action = epsilon_greedy_action(action_distribution, 0.05)
        elif self.explore_exploit_setting == 'epsilon_greedy_0.25':
            action = epsilon_greedy_action(action_distribution, 0.25)
        elif self.explore_exploit_setting == 'epsilon_greedy_0.50':
            action = epsilon_greedy_action(action_distribution, 0.50)
        elif self.explore_exploit_setting == 'epsilon_greedy_0.90':
            action = epsilon_greedy_action(action_distribution, 0.90)
        elif self.explore_exploit_setting == 'epsilon_greedy_annealed_1.0->0.001':
            action = epsilon_greedy_action_annealed(
                action_distribution, epsilon_percentage, 1.0, 0.001)
        elif self.explore_exploit_setting == 'epsilon_greedy_annealed_0.5->0.001':
            action = epsilon_greedy_action_annealed(
                action_distribution, epsilon_percentage, 0.5, 0.001)
        elif self.explore_exploit_setting == 'epsilon_greedy_annealed_0.25->0.001':
            action = epsilon_greedy_action_annealed(
                action_distribution, epsilon_percentage, 0.25, 0.001)
        return action

    def predict_action(self, state, epsilon_percentage):
        action_distribution = self.session.run(
            self.output, feed_dict={self.state: [state]})[0]
        action = self.sample_action_from_distribution(
            action_distribution, epsilon_percentage)
        return action

2.2.3 构建模型和优化器

build_model() ：定义一个三层神经网络作为模型架构，模型返回一个表示动作概率分布的层。
build_training() ：实现策略梯度优化器，根据动作的预测概率和相应的回报来计算损失，并使用 Adam 优化器最小化损失。

2.2.4 采样动作

predict_action 函数根据模型的动作概率分布输出采样动作，支持多种采样策略，如贪婪、ε - 贪婪和退火 ε - 贪婪。

2.2.5 记录历史

为了聚合多个回合的梯度，我们实现了 EpisodeHistory 和 Memory 类来记录状态、动作和奖励元组。

class EpisodeHistory(object):
    def __init__(self):
        self.states = []
        self.actions = []
        self.rewards = []
        self.state_primes = []
        self.discounted_returns = []

    def add_to_history(self, state, action, reward, state_prime):
        self.states.append(state)
        self.actions.append(action)
        self.rewards.append(reward)
        self.state_primes.append(state_prime)

class Memory(object):
    def __init__(self):
        self.states = []
        self.actions = []
        self.rewards = []
        self.state_primes = []
        self.discounted_returns = []

    def reset_memory(self):
        self.states = []
        self.actions = []
        self.rewards = []
        self.state_primes = []
        self.discounted_returns = []

    def add_episode(self, episode):
        self.states += episode.states
        self.actions += episode.actions
        self.rewards += episode.rewards
        self.discounted_returns += episode.discounted_returns

2.2.6 策略梯度主函数

import gym
from tqdm import tqdm

def main(argv):
    total_episodes = 5000
    total_steps_max = 10000
    epsilon_stop = 3000
    train_frequency = 8
    max_episode_length = 500
    render_start = -1
    should_render = False
    explore_exploit_setting = 'epsilon_greedy_annealed_1.0->0.001'
    env = gym.make('CartPole-v0')
    state_size = env.observation_space.shape[0]
    num_actions = env.action_space.n

    solved = False
    with tf.Session() as session:
        agent = PGAgent(session=session, state_size=state_size,
                        num_actions=num_actions,
                        hidden_size=16, 
                        explore_exploit_setting=explore_exploit_setting)
        session.run(tf.global_variables_initializer())
        episode_rewards = []
        batch_losses = []
        global_memory = Memory()
        steps = 0
        for i in tqdm(range(total_episodes)):
            state = env.reset()
            episode_reward = 0.0
            episode_history = EpisodeHistory()
            epsilon_percentage = float(min(i/float(epsilon_stop), 1.0))
            for j in range(max_episode_length):
                action = agent.predict_action(state, epsilon_percentage)
                state_prime, reward, terminal, _ = env.step(action)
                if (render_start > 0 and i > render_start and should_render) \
                        or (solved and should_render):
                    env.render()
                episode_history.add_to_history(
                    state, action, reward, state_prime)
                state = state_prime
                episode_reward += reward
                steps += 1
                if terminal:
                    episode_history.discounted_returns = discount_rewards(
                        episode_history.rewards)
                    global_memory.add_episode(episode_history)
                    if np.mod(i, train_frequency) == 0:
                        feed_dict = {
                            agent.reward_input: np.array(global_memory.discounted_returns),
                            agent.action_input: np.array(global_memory.actions), 
                            agent.state: np.array(global_memory.states)}
                        _, batch_loss = session.run(
                            [agent.train_step, agent.loss], feed_dict=feed_dict)
                        batch_losses.append(batch_loss)
                        global_memory.reset_memory()
                    episode_rewards.append(episode_reward)
                    break
            if i % 10:
                if np.mean(episode_rewards[:-100]) > 100.0:
                    solved = True
                else:
                    solved = False

2.2.7 PGAgent 在倒立摆问题上的性能

通过尝试 8 种不同的采样方法，发现退火 ε - Greedy 从 1.0 到 0.001 的方法取得了最佳效果。标准的 ε - Greedy 方法表现较差，高 ε 值（如 0.9）会导致大部分时间采取随机动作，低 ε 值（如 0.05）会使智能体陷入局部最优，缺乏探索其他策略的能力。而退火 ε - Greedy 允许模型在早期进行探索，后期进行利用，这对于学习好的策略至关重要。

3. Q - 学习和深度 Q 网络

3.1 Q - 学习

Q - 学习属于价值学习类别，它学习一个 Q 函数，表示状态 - 动作对的质量。Q 函数 $Q(s, a)$ 计算在状态 $s$ 下执行动作 $a$ 时的最大折扣未来回报。

3.2 贝尔曼方程

贝尔曼方程定义了 Q 值之间的关系：
[
Q^ (s_t, a_t) = E[r_t + \gamma \max_{a’} Q^ (s_{t + 1}, a’)]
]
通过这个递归定义，我们可以根据未来的 Q 值更新过去的 Q 值，这个过程称为价值迭代。

3.3 价值迭代的问题

价值迭代需要遍历所有状态 - 动作对，对于复杂环境，Q 表的规模会非常大，甚至可能是无限的，这使得精确计算所有 Q 值变得不可行。

3.4 近似 Q 函数

为了解决价值迭代的问题，我们可以学习 Q 函数的近似值，使用模型来估计 Q 函数，而不需要遍历所有状态 - 动作对。

3.5 深度 Q 网络（DQN）

DQN 使用深度神经网络来估计所有可能动作的 Q 值。

3.5.1 训练 DQN

我们的目标是最小化模型的 Q 函数近似值和未来预期回报之间的差异：
[
\min_{\theta} \sum_{e \in E} \sum_{t = 0}^{T} (Q(s_t, a_t; \theta) - (r_t + \gamma \max_{a’} Q(s_{t + 1}, a’; \theta)))
]
这个目标函数关于模型参数是可微的，我们可以使用随机梯度下降来最小化损失。

3.5.2 学习稳定性

为了解决学习过程中的不稳定性问题，我们采用了以下两种方法：
- 目标 Q 网络 ：引入一个目标网络，它是预测网络的副本，但参数更新滞后。我们只在每隔几个批次时将目标网络的参数更新为预测网络的参数，以提供 Q 值的稳定性。
- 经验回放 ：将智能体的所有经验存储在一个表中，在构建批次时随机采样，以打破数据之间的相关性，使批次梯度更能代表整个梯度。

3.6 从 Q 函数到策略

虽然 Q - 学习是一种价值学习范式，但我们可以根据学习到的 Q 函数构建一个策略。如果我们学习到了一个好的 Q 函数近似值，我们可以选择具有最大 Q 值的动作作为最优策略：
[
\pi(s; \theta) = \arg \max_{a’} Q^*(s, a’; \theta)
]
我们也可以使用之前讨论的采样技术来创建一个随机策略，使智能体有时偏离 Q 函数的建议，以增加探索的程度。

3.7 DQN 和马尔可夫假设

DQN 仍然是一个依赖马尔可夫假设的马尔可夫决策过程，该假设认为下一个状态 $s_{i + 1}$ 只取决于当前状态 $s_i$ 和动作 $a_i$，而不取决于任何先前的状态或动作。但对于许多环境，这个假设并不成立，例如在 Pong 游戏中，球的速度在单个游戏帧中无法体现。

3.8 DQN 对马尔可夫假设的解决方案

DQN 通过利用状态历史来解决这个问题，它不是将单个游戏帧作为游戏状态，而是将过去的四个游戏帧作为当前游戏状态，以捕捉时间相关的信息。

3.9 使用 DQN 玩 Breakout 游戏

3.9.1 定义 DQNAgent

import tensorflow as tf
import tensorflow.contrib.slim as slim
import numpy as np
from scipy.misc import imresize
from skimage.color import rgb2gray as to_grayscale

class DQNAgent(object):
    def __init__(self, session, num_actions,
                 learning_rate=1e-3, history_length=4,
                 screen_height=84, screen_width=84, 
                 gamma=0.98):
        self.session = session
        self.num_actions = num_actions
        self.learning_rate = learning_rate
        self.history_length = history_length
        self.screen_height = screen_height
        self.screen_width = screen_width
        self.gamma = gamma
        self.build_prediction_network()
        self.build_target_network()
        self.build_training()

    def build_prediction_network(self):
        with tf.variable_scope('pred_network'):
            self.s_t = tf.placeholder('float32', shape=[
                None, self.history_length,
                self.screen_height, self.screen_width],
                name='state')
            self.conv_0 = slim.conv2d(self.s_t, 32, 8, 4, scope='conv_0')
            self.conv_1 = slim.conv2d(self.conv_0, 64, 4, 2, scope='conv_1')
            self.conv_2 = slim.conv2d(self.conv_1, 64, 3, 1, scope='conv_2')
            shape = self.conv_2.get_shape().as_list()
            self.flattened = tf.reshape(
                self.conv_2, [-1, shape[1]*shape[2]*shape[3]])
            self.fc_0 = slim.fully_connected(self.flattened, 512, scope='fc_0')
            self.q_t = slim.fully_connected(
                self.fc_0, self.num_actions, activation_fn=None, scope='q_values')
            self.q_action = tf.argmax(self.q_t, dimension=1)

    def build_target_network(self):
        with tf.variable_scope('target_network'):
            self.target_s_t = tf.placeholder('float32', 
                shape=[None, self.history_length, 
                    self.screen_height, self.screen_width], 
                name='state')
            self.target_conv_0 = slim.conv2d(
                self.target_s_t, 32, 8, 4, scope='conv_0')
            self.target_conv_1 = slim.conv2d(
                self.target_conv_0, 64, 4, 2, scope='conv_1')
            self.target_conv_2 = slim.conv2d(
                self.target_conv_1, 64, 3, 1, scope='conv_2')
            shape = self.conv_2.get_shape().as_list()
            self.target_flattened = tf.reshape(
                self.target_conv_2, [-1, shape[1]*shape[2]*shape[3]])
            self.target_fc_0 = slim.fully_connected(
                self.target_flattened, 512, scope='fc_0')
            self.target_q = slim.fully_connected(
                self.target_fc_0, self.num_actions, 
                activation_fn=None, scope='q_values')

    def update_target_q_weights(self):
        pred_vars = tf.get_collection(
            tf.GraphKeys.GLOBAL_VARIABLES, scope='pred_network')
        target_vars = tf.get_collection(
            tf.GraphKeys.GLOBAL_VARIABLES, scope='target_network')
        for target_var, pred_var in zip(target_vars, pred_vars):
            weight_input = tf.placeholder('float32', name='weight')
            target_var.assign(weight_input).eval(
                {weight_input: pred_var.eval()})

    def build_training(self):
        self.target_q_t = tf.placeholder('float32', [None], name='target_q_t')
        self.action = tf.placeholder('int64', [None], name='action')
        action_one_hot = tf.one_hot(
            self.action, self.num_actions, 1.0, 0.0, name='action_one_hot')
        q_of_action = tf.reduce_sum(
            self.q_t * action_one_hot, reduction_indices=1, name='q_of_action')
        self.delta = tf.square((self.target_q_t - q_of_action))
        self.loss = tf.reduce_mean(self.delta, name='loss')
        self.optimizer = tf.train.AdamOptimizer(
            learning_rate=self.learning_rate)
        self.train_step = self.optimizer.minimize(self.loss)

    def sample_action_from_distribution(self, action_distribution, epsilon_percentage):
        action = epsilon_greedy_action_annealed(
            action_distribution, epsilon_percentage)
        return action

    def predict_action(self, state, epsilon_percentage):
        action_distribution = self.session.run(
            self.q_t, feed_dict={self.s_t: [state]})[0]
        action = self.sample_action_from_distribution(
            action_distribution, epsilon_percentage)
        return action

    def process_state_into_stacked_frames(self, frame, past_frames, past_state=None):
        full_state = np.zeros(
            (self.history_length, self.screen_width, self.screen_height))
        if past_state is not None:
            for i in range(len(past_state)-1):
                full_state[i, :, :] = past_state[i+1, :, :]
            full_state[-1, :, :] = imresize(to_grayscale(frame),
                                            (self.screen_width,
                                            self.screen_height)) / 255.0
        else:
            all_frames = past_frames + [frame]
            for i, frame_f in enumerate(all_frames):
                full_state[i, :, :] = imresize(
                    to_grayscale(frame_f), (self.screen_width, 
                        self.screen_height)) / 255.0
            full_state = full_state.astype('float32')
        return full_state

3.9.2 构建架构

构建预测网络和目标 Q 网络，它们具有相同的架构，只是目标网络的参数更新滞后。将游戏状态作为像素数组输入，通过三个卷积层和两个全连接层来计算每个动作的 Q 值。

3.9.3 堆叠帧

为了捕捉时间相关的状态变量，如速度，DQN 使用过去的四个游戏帧作为当前游戏状态，通过 process_state_into_stacked_frames 函数构建堆叠帧。

3.9.4 设置训练操作

根据目标表达式计算损失，即预测网络的输出与目标网络的输出加上当前时间步的回报之间的差异，使用 Adam 优化器更新预测网络的参数。

3.9.5 更新目标 Q 网络

为了确保学习环境的稳定性，每四个批次更新一次目标 Q 网络的权重，使其等于预测网络的权重。

3.9.6 实现经验回放

class ExperienceReplayTable(object):
    def __init__(self, table_size=5000):
        self.states = []
        self.actions = []
        self.rewards = []
        self.state_primes = []
        self.discounted_returns = []
        self.table_size = table_size

    def add_episode(self, episode):
        self.states += episode.states
        self.actions += episode.actions
        self.rewards += episode.rewards
        self.discounted_returns += episode.discounted_returns
        self.state_primes += episode.state_primes
        self.purge_old_experiences()

    def purge_old_experiences(self):
        if len(self.states) > self.table_size:
            self.states = self.states[-self.table_size:]
            self.actions = self.actions[-self.table_size:]
            self.rewards = self.rewards[-self.table_size:]
            self.discounted_returns = self.discounted_returns[-self.table_size:]
            self.state_primes = self.state_primes[-self.table_size:]

    def sample_batch(self, batch_size):
        s_t, action, reward, s_t_plus_1, terminal = [], [], [], [], []
        rands = np.arange(len(self.states))
        np.random.shuffle(rands)
        rands = rands[:batch_size]
        for r_i in rands:
            s_t.append(self.states[r_i])
            action.append(self.actions[r_i])
            reward.append(self.rewards[r_i])
            s_t_plus_1.append(self.state_primes[r_i])
            terminal.append(self.discounted_returns[r_i])
        return np.array(s_t), np.array(action), np.array(reward), np.array(s_t_plus_1), np.array(terminal)

3.9.7 DQN 主循环

import gym
from tqdm import tqdm

def main(argv):
    run_index = 0
    learn_start = 100
    scale = 10
    total_episodes = 500*scale
    epsilon_stop = 250*scale
    train_frequency = 4
    target_frequency = 16
    batch_size = 32
    max_episode_length = 1000
    render_start = total_episodes - 10
    should_render = True
    env = gym.make('Breakout-v0')
    num_actions = env.action_space.n
    solved = False
    with tf.Session() as session:
        agent = DQNAgent(session=session, num_actions=num_actions)
        session.run(tf.global_variables_initializer())
        episode_rewards = []
        batch_losses = []
        replay_table = ExperienceReplayTable()
        global_step_counter = 0
        for i in tqdm(range(total_episodes)):
            frame = env.reset()
            past_frames = [frame] * (agent.history_length - 1)
            state = agent.process_state_into_stacked_frames(
                frame, past_frames, past_state=None)
            episode_reward = 0.0
            episode_history = EpisodeHistory()
            epsilon_percentage = float(min(i/float(epsilon_stop), 1.0))
            for j in range(max_episode_length):
                action = agent.predict_action(state, epsilon_percentage)
                if global_step_counter < learn_start:
                    action = random_action(agent.num_actions)
                frame_prime, reward, terminal, _ = env.step(action)
                state_prime = agent.process_state_into_stacked_frames(
                    frame_prime, past_frames, past_state=state)
                past_frames.append(frame_prime)
                past_frames = past_frames[-4:]
                if (render_start > 0 and (i > render_start)
                        and should_render) or (solved and should_render):
                    env.render()
                episode_history.add_to_history(
                    state, action, reward, state_prime)
                state = state_prime
                episode_reward += reward
                global_step_counter += 1
                if j == (max_episode_length - 1):
                    terminal = True
                if terminal:
                    episode_history.discounted_returns = discount_rewards(
                        episode_history.rewards)
                    replay_table.add_episode(episode_history)
                    if global_step_counter > learn_start:
                        if global_step_counter % train_frequency == 0:
                            s_t, action, reward, s_t_plus_1, terminal = \
                                replay_table.sample_batch(batch_size)
                            q_t_plus_1 = agent.target_q.eval(
                                {agent.target_s_t: s_t_plus_1})
                            terminal = np.array(terminal) + 0.
                            max_q_t_plus_1 = np.max(q_t_plus_1, axis=1)
                            target_q_t = (1. - terminal) * \
                                agent.gamma * max_q_t_plus_1 + reward
                            _, q_t, loss = agent.session.run(
                                [agent.train_step, agent.q_t, agent.loss], {
                                    agent.target_q_t: target_q_t,
                                    agent.action: action,
                                    agent.s_t: s_t
                                })
                        if global_step_counter % target_frequency == 0:
                            agent.update_target_q_weights()
                    episode_rewards.append(episode_reward)
                    break
            if i % 50 == 0:
                ave_reward = np.mean(episode_rewards[-100:])
                print(ave_reward)
                if ave_reward > 50.0:
                    solved = False
                else:
                    solved = False

3.9.8 DQNAgent 在 Breakout 游戏上的结果

训练 DQNAgent 1000 个回合可以看到奖励的总体上升趋势，虽然要在 Atari 游戏上达到超人水平的结果通常需要几天的训练时间，但我们可以很快看到奖励的增长趋势。

综上所述，本文介绍了强化学习中的探索与利用策略，包括 ε - Greedy 和退火 ε - Greedy 策略，以及策略学习和价值学习的方法。详细阐述了基于策略梯度的策略学习在倒立摆问题上的应用，以及 Q - 学习和深度 Q 网络在 Breakout 游戏中的实现。通过这些方法和技术，我们可以让智能体在不同的环境中学习到有效的策略，实现奖励的最大化。

4. 总结与对比

4.1 策略学习与价值学习对比

学习类型	定义	优点	缺点	适用场景
策略学习	直接学习一个能最大化奖励的策略	可直接得到行动策略，在连续动作空间表现较好	收敛速度可能较慢，难以找到全局最优解	动作空间连续、环境复杂的场景，如机器人控制
价值学习	学习每个状态 - 动作对的价值	理论上能找到全局最优策略，在离散动作空间表现较好	需要构建 Q 表，对于复杂环境 Q 表规模大	动作空间离散、状态空间相对较小的场景，如棋类游戏

4.2 ε - Greedy 与退火 ε - Greedy 策略对比

策略类型	特点	优点	缺点	适用阶段
ε - Greedy	以固定概率 ε 随机选择动作	实现简单	高 ε 探索过度，低 ε 易陷入局部最优	对环境有一定了解，但仍需一定探索的阶段
退火 ε - Greedy	ε 随时间退火，开始高，后期低	早期充分探索，后期充分利用	实现相对复杂，需要调整退火参数	训练初期需要大量探索，后期需要稳定利用的场景

4.3 策略梯度与 DQN 对比

方法	原理	优点	缺点	适用场景
策略梯度	通过策略梯度优化权重，直接学习策略	可处理连续动作空间，对环境变化适应性强	收敛速度慢，方差大	连续动作空间、环境动态变化的场景，如自动驾驶
DQN	学习 Q 函数近似值，通过 Q 函数构建策略	能处理高维状态空间，学习效率高	依赖马尔可夫假设，对复杂环境泛化能力弱	离散动作空间、状态空间高维的场景，如游戏

5. 流程图总结

5.1 策略梯度智能体训练流程

graph TD;
    A[初始化环境和智能体] --> B[开始训练循环];
    B --> C[重置环境状态];
    C --> D[根据策略选择动作];
    D --> E[执行动作，获取奖励和新状态];
    E --> F[记录状态、动作和奖励];
    F --> G{是否达到终止条件};
    G -- 否 --> D;
    G -- 是 --> H[计算折扣未来回报];
    H --> I[更新全局记忆];
    I --> J{是否达到训练频率};
    J -- 是 --> K[根据全局记忆计算损失并更新模型];
    K --> L[重置全局记忆];
    J -- 否 --> M[继续下一轮训练];
    M --> B;

5.2 DQN 训练流程

graph TD;
    A[初始化环境、智能体和经验回放表] --> B[开始训练循环];
    B --> C[重置环境帧];
    C --> D[处理帧为堆叠状态];
    D --> E[根据 Q 函数选择动作];
    E --> F[执行动作，获取奖励、新帧和终止信息];
    F --> G[处理新帧为堆叠状态];
    G --> H[记录状态、动作、奖励和新状态];
    H --> I{是否达到终止条件};
    I -- 否 --> E;
    I -- 是 --> J[计算折扣未来回报];
    J --> K[更新经验回放表];
    K --> L{是否达到学习起始步数};
    L -- 是 --> M{是否达到训练频率};
    M -- 是 --> N[从经验回放表采样批次];
    N --> O[计算目标 Q 值];
    O --> P[根据目标 Q 值更新模型];
    P --> Q{是否达到目标更新频率};
    Q -- 是 --> R[更新目标 Q 网络权重];
    Q -- 否 --> S[继续下一轮训练];
    M -- 否 --> S;
    L -- 否 --> S;
    S --> B;