使用Hugging Face Deep RL课程训练机器人手臂：A2C算法实战-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00724/article/details/148527090

使用Hugging Face Deep RL课程训练机器人手臂：A2C算法实战

deep-rl-class This repo contains the Hugging Face Deep Reinforcement Learning Course. 项目地址: https://gitcode.com/gh_mirrors/de/deep-rl-class

前言

在强化学习领域，机器人控制一直是一个极具挑战性的研究方向。本文将基于Hugging Face的深度强化学习课程，带领读者使用Advantage Actor-Critic (A2C)算法训练Franka Emika Panda机器人手臂完成reach任务。

环境准备

虚拟显示设置

在Colab环境中，我们需要设置虚拟显示来渲染环境并录制训练视频：

# 安装必要依赖
!apt install python-opengl ffmpeg xvfb
!pip3 install pyvirtualdisplay

# 启动虚拟显示
from pyvirtualdisplay import Display
virtual_display = Display(visible=0, size=(1400, 900))
virtual_display.start()

安装依赖包

我们需要安装以下关键库：

gymnasium: OpenAI Gym的维护分支
panda-gym: 机器人手臂仿真环境
stable-baselines3: 强化学习算法实现
huggingface_sb3: 与Hugging Face Hub交互的工具

!pip install stable-baselines3[extra] gymnasium
!pip install huggingface_sb3 huggingface_hub panda_gym

理解PandaReachDense-v3环境

环境概述

PandaReachDense-v3环境要求机器人手臂将其末端执行器(end-effector)移动到目标位置(绿色小球)。与稀疏奖励版本不同，dense版本在每个时间步都会提供奖励，距离目标越近奖励越高。

观察空间分析

观察空间是一个包含3个元素的字典：

achieved_goal: 末端执行器当前位置(x,y,z)
desired_goal: 目标位置(x,y,z)
observation: 末端执行器的位置和速度信息

env = gym.make("PandaReachDense-v3")
print("观察空间:", env.observation_space)
print("示例观察:", env.observation_space.sample())

动作空间分析

动作空间是一个3维向量，控制x、y、z方向的运动：

print("动作空间:", env.action_space)
print("示例动作:", env.action_space.sample())

训练流程

环境包装

为了提高训练稳定性，我们对观察值和奖励进行归一化处理：

from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize

env = make_vec_env("PandaReachDense-v3", n_envs=4)
env = VecNormalize(env, norm_obs=True, norm_reward=True, clip_obs=10.)

模型构建

使用A2C算法，由于观察空间是字典类型，我们需要使用MultiInputPolicy：

from stable_baselines3 import A2C

model = A2C(
    policy="MultiInputPolicy",
    env=env,
    verbose=1
)

训练过程

训练100万步（约25-40分钟）：

model.learn(1_000_000)

模型保存

保存训练好的模型和归一化参数：

model.save("a2c-PandaReachDense-v3")
env.save("vec_normalize.pkl")

评估与部署

性能评估

使用evaluate_policy方法评估模型性能：

from stable_baselines3.common.evaluation import evaluate_policy

# 加载评估环境
eval_env = DummyVecEnv([lambda: gym.make("PandaReachDense-v3")])
eval_env = VecNormalize.load("vec_normalize.pkl", eval_env)
eval_env.training = False
eval_env.norm_reward = False

# 评估模型
mean_reward, std_reward = evaluate_policy(model, eval_env)
print(f"平均奖励:{mean_reward:.2f} +/- {std_reward:.2f}")

结果可视化

我们可以渲染训练好的模型：

obs = eval_env.reset()
for _ in range(1000):
    action, _ = model.predict(obs)
    obs, _, done, _ = eval_env.step(action)
    if done:
        obs = eval_env.reset()