【强化学习框架】 ElegantRL之Hello World

本文链接：https://blog.youkuaiyun.com/Guangli_R/article/details/143758196

文章目录

前言
一、ElegantRL的"Hello, World!"概述
二、文件结构（“Net-Agent-Env-Run”）
三、运行代码
- 1. 运行前的准备
- 2. 运行代码
四、总结

前言

本文旨在介绍如何通过ElegantRL框架的"Hello, World!"示例来理解深度强化学习（DRL）并获取实践经验。我们将详细阐述文件结构、各模块的功能以及如何运行代码。

一、ElegantRL的"Hello, World!"概述

ElegantRL的"Hello, World!"示例是一个简洁的入门项目，旨在帮助用户快速理解深度强化学习的基本概念和框架结构。通过该示例，用户可以了解到如何构建一个包含环境（env.py）、智能体（agent.py）、网络（net.py）和运行逻辑（run.py）的完整DRL系统。

二、文件结构（“Net-Agent-Env-Run”）

1. 文件结构概述

文件结构如下图所示：

在这里插入图片描述

一句话总结：一个带有Actor-Critic网络（net.py）的智能体（agent.py）通过与环境（env.py）交互进行训练（run.py）。

2. 各文件功能介绍

net.py

功能：包含三种类型的网络，即Q网络、Actor网络和Critic网络，每种网络都包括一个基础网络和一系列算法变体。
重要性：网络是智能体进行决策和学习的核心。

agent.py

功能：包含不同DRL算法的智能体类，以及用于数据存储的Replay Buffer类。
重要性：智能体是执行DRL算法的主体，负责与环境交互并更新网络参数。

env.py

功能：包含一个包装类，用于预处理Gym风格的环境。
重要性：环境是智能体进行学习和探索的场所。

run.py

功能：包含训练和评估过程的基本函数。
重要性：控制整个训练和评估流程，包括初始化、探索环境、更新网络参数和评估性能等。

demo.py

功能：包含四个演示函数，分别展示了离散动作+离策算法、离散动作+在策算法、连续动作+离策算法和连续动作+在策算法的应用。
重要性：提供具体的演示案例，帮助用户快速上手并理解DRL算法的应用。

三、运行代码

1. 运行前的准备

确保已安装ElegantRL框架及其依赖项。
根据需要修改demo.py中的ENV_ID以选择不同的任务环境。

2. 运行代码

在demo.py中，提供了四个函数，可以在main函数中调用。例如，要运行连续动作+在策算法的演示，可以执行以下代码：

if __name__ == '__main__':
    ENV_ID = 3  # 选择任务环境的ID，如BipedalWalker-v3
    demo_continuous_action_on_policy()  # 调用相应的演示函数
    # demo_continuous_action_off_policy()
    # demo_discrete_action_off_policy()
    # demo_discrete_action_on_policy()