Practical RL项目：深度交叉熵方法实现详解

韶婉珊Vivian

于 2025-06-07 09:02:02 发布

阅读量368

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00424/article/details/148487486

Practical RL项目：深度交叉熵方法实现详解

Practical_RL A course in reinforcement learning in the wild 项目地址: https://gitcode.com/gh_mirrors/pr/Practical_RL

深度交叉熵方法概述

交叉熵方法(CEM)是一种基于优化的强化学习算法，它通过迭代地改进策略分布来解决控制问题。在Practical RL项目中，我们将传统的CEM方法扩展到神经网络领域，使用多层神经网络来解决连续状态空间的控制问题。

环境准备与初始化

首先我们需要设置实验环境，这里以CartPole-v0环境为例：

import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt

env = gym.make("CartPole-v0", render_mode="rgb_array").env
n_actions = env.action_space.n
state_dim = env.observation_space.shape[0]

CartPole环境的状态空间是连续的4维向量，包含小车位置、速度、杆角度和角速度；动作空间是离散的2个动作（向左/向右推）。

神经网络策略实现

我们使用Scikit-learn的MLPClassifier作为策略网络：

from sklearn.neural_network import MLPClassifier

agent = MLPClassifier(
    hidden_layer_sizes=(20, 20),  # 两层隐藏层，每层20个神经元
    activation="tanh",           # 使用tanh激活函数
)

MLPClassifier提供了两个关键方法：

partial_fit()：执行单次训练，最大化给定状态下动作的概率
predict_proba()：预测所有动作的概率，输出形状为[len(states), n_actions]

会话生成函数

会话生成是CEM算法的核心部分，它使用当前策略在环境中运行一个完整的episode：

def generate_session(env, agent, t_max=1000):
    states, actions = [], []
    total_reward = 0
    s, _ = env.reset()
    
    for t in range(t_max):
        probs = agent.predict_proba([s])[0]  # 预测动作概率
        a = np.random.choice(n_actions, p=probs)  # 按概率采样动作
        
        new_s, r, terminated, truncated, _ = env.step(a)
        
        # 记录状态、动作和奖励
        states.append(s)
        actions.append(a)
        total_reward += r
        
        s = new_s
        if terminated or truncated:
            break
    return states, actions, total_reward

精英选择机制

与表格型CEM类似，我们需要选择表现最好的会话进行训练：

def select_elites(states_batch, actions_batch, rewards_batch, percentile=50):
    reward_threshold = np.percentile(rewards_batch, percentile)
    elite_indices = np.where(rewards_batch >= reward_threshold)[0]
    
    elite_states = np.concatenate([states_batch[i] for i in elite_indices])
    elite_actions = np.concatenate([actions_batch[i] for i in elite_indices])
    
    return elite_states, elite_actions

训练循环

完整的训练过程包括生成会话、选择精英样本和策略更新：

n_sessions = 100
percentile = 70
log = []

for i in range(100):
    # 生成新会话
    sessions = [generate_session(env, agent) for _ in range(n_sessions)]
    states_batch, actions_batch, rewards_batch = map(np.array, zip(*sessions))
    
    # 选择精英样本
    elite_states, elite_actions = select_elites(states_batch, actions_batch, rewards_batch, percentile)
    
    # 更新策略
    agent.partial_fit(elite_states, elite_actions)
    
    # 显示进度
    show_progress(rewards_batch, log, percentile, reward_range=[0, np.max(rewards_batch)])
    
    if np.mean(rewards_batch) > 190:
        print("训练完成！")
        break

性能优化技巧

超参数调优：
- 调整percentile值：较高的percentile会提高精英样本的质量但可能减慢收敛速度
- 增加n_sessions可以提供更多样化的样本但会增加计算成本
网络架构调整：
- 增加隐藏层大小或层数可以提高模型表达能力
- 尝试不同的激活函数(如ReLU)
训练加速：
- 使用并行化生成会话
- 复用前几轮的样本数据