PPO算法训练机器人时，如何定义状态/动作/奖励

原创于 2025-12-22 09:08:11 发布 · 510 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器人 #算法 #人工智能

轨迹规划专栏收录该内容

14 篇文章

订阅专栏

用 PPO 训练机器人的核心是：搭建仿真环境→定义状态 / 动作 / 奖励→配置 PPO 网络与超参→采集数据并截断式更新策略→仿真训练与调优→部署到实体机器人，核心是靠 “信任域裁剪” 保证训练稳定。以下是可复现的完整流程与实操要点。

一、核心原理与准备

PPO 是 On-policy 策略梯度算法，通过裁剪目标函数（clip）限制策略更新幅度，避免训练崩溃，目标函数为：LPPO(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)−c1LtVF(θ)+c2LtENT(θ)]其中rt(θ)=πθ(at∣st)/πθold(at∣st)，ϵ通常取 0.2，A^t为 GAE 优势函数，c1/c2为价值函数与熵正则系数。

准备工具链

组件	常用选择	用途
仿真环境	MuJoCo、Isaac Lab、Gymnasium	物理建模与安全试错
算法库	Stable-Baselines3、RSL-RL	快速调用 PPO 实现
框架	PyTorch/TensorFlow	自定义网络与训练流程
硬件	GPU（RTX 3090+/4090）	并行加速训练

安装示例（Stable-Baselines3）：

bash

pip install stable-baselines3 gymnasium mujoco torch

二、训练全流程（6 步）

1. 环境与任务定义

状态空间：关节角度、角速度、IMU、力 / 力矩、位置 / 速度等机器人状态
动作空间：连续型（关节力矩 / 目标角度）或离散型（步态相位），配合 PD/MPC 底层控制
奖励函数：多目标加权，如行走任务：前进速度（+1.0）+ 姿态稳定（+0.5）+ 能耗惩罚（-0.1）+ 摔倒终止（-100）

2. 网络与超参配置

网络结构：Actor-Critic 双网络，共享特征提取层（如 MLP/CNN），输出动作分布（连续用高斯，离散用分类）与状态价值
关键超参（以 Stable-Baselines3 为例）：
- 学习率：3e-4～3e-3
- 折扣因子γ：0.95～0.99
- 裁剪系数ϵ：0.1～0.2
- 批量大小：64～2048，并行环境数 16～128
- 迭代次数：每轮数据训练 10～20 次

3. 数据采集与优势计算

用当前策略πθold与环境交互，采集轨迹（s, a, r, done），总步数通常设为 2048/4096
用 GAE 计算优势A^t=∑l=0∞(γλ)lδt+l，λ取 0.95

4. 策略更新（核心步骤）

固定旧策略θold，计算概率比rt(θ)
计算裁剪后的目标函数，结合价值损失与熵正则
用 Adam 优化器最小化损失，更新 Actor 与 Critic 网络
重复多轮更新（如 10 轮），保持数据复用效率

5. 训练与调优

启动训练并监控指标：平均奖励、策略熵、裁剪比例（稳定时约 10%～20%）
常见问题：奖励稀疏→增加中间奖励；训练震荡→调小ϵ或学习率；收敛慢→增大并行环境数或批量

6. 仿真→实体迁移

仿真训练收敛后，在实体机器人上进行零样本部署或少量数据微调（域适应）
用硬件在环（HIL）或领域随机化提升鲁棒性

三、代码示例（Stable-Baselines3，Humanoid 行走）

python

import gymnasium as gym
from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env

# 1. 创建并行环境
env = make_vec_env("Humanoid-v4", n_envs=8)

# 2. 初始化PPO模型
model = PPO(
    "MlpPolicy", env, verbose=1,
    learning_rate=3e-4, gamma=0.99, clip_range=0.2,
    n_steps=2048, batch_size=64, n_epochs=10
)

# 3. 训练
model.learn(total_timesteps=1_000_000)

# 4. 保存与测试
model.save("humanoid_ppo")
obs = env.reset()
for _ in range(1000):
    action, _states = model.predict(obs, deterministic=True)
    obs, rewards, dones, info = env.step(action)
    env.render("human")

四、关键技巧

并行训练：用 Isaac Lab/Isaac Gym 的多环境并行，加速样本采集
分层控制：RL 输出高层指令（步态相位），底层用 PD/MPC 执行关节控制
超参调优：优先调ϵ、学习率、批量大小，再调γ与 GAE 的λ
领域随机化：在仿真中加入摩擦 / 质量 / 延迟扰动，提升迁移鲁棒性

需要我把上述代码改成自定义奖励函数与状态 / 动作空间的版本，适配你的具体机器人吗？

参考 10 篇资料

用PPO算法训练机器人时，如何定义状态/动作/奖励？

你想了解在 PPO 算法训练机器人过程中，状态、动作、奖励这三个核心要素的定义方法，这是 RL 训练机器人的基础，直接决定训练效果与任务可行性。下面将分别详细拆解三者的定义逻辑、选型原则与实操示例：

一、状态空间（State Space）：机器人的 “感知输入”

状态空间是机器人对自身与环境的感知集合，是 PPO 算法中 Actor 网络的输入，核心要求是包含任务相关的所有关键信息，无冗余、无遗漏，确保策略能通过状态判断当前处境并输出合理动作。

1. 核心组成（按优先级排序）

类别	具体内容	适用场景
机器人本体状态（必选）	关节角度、关节角速度、关节力矩、IMU 数据（滚转 / 俯仰 / 偏航角及角速度）、机身姿态、自身位置 / 速度	所有机器人任务（行走、机械臂抓取、无人机悬停）
任务目标状态（必选）	目标位置（如机械臂抓取目标坐标）、目标姿态（如无人机期望航向）、任务进度（如搬运任务的剩余距离）	有明确目标的任务
环境状态（可选）	障碍物坐标、地面摩擦系数、环境光照 / 湿度（视觉任务）、外力扰动（如风力）	复杂交互环境任务
历史状态（可选）	前 1~5 步的状态 / 动作序列	需要时序信息的任务（如机器人避障、步态规划）

2. 空间类型与处理

连续型状态：绝大多数机器人状态（如关节角度、位置坐标）为连续值，通常需做归一化处理（映射到 [-1,1] 或 [0,1]），避免数值范围差异导致网络训练不稳定。
离散型状态：少数场景（如机器人工作模式切换、步态相位判断）为离散值，需通过独热编码转换为连续向量后输入网络。
视觉状态：若依赖摄像头感知，需用 CNN 提取图像特征，再输入到 PPO 的 Actor-Critic 网络。

3. 实操示例（双足机器人行走）

状态空间包含：

机身 IMU：滚转角、俯仰角、偏航角及对应角速度（6 维）
关节状态：12 个关节的角度 + 角速度（24 维）
自身运动：机身重心的 x/y/z 速度、航向偏差（4 维）
任务相关：与目标点的距离（2 维）
总维度：6+24+4+2=36 维连续向量

二、动作空间（Action Space）：机器人的 “执行输出”

动作空间是 PPO 算法中 Actor 网络的输出，是机器人可执行的控制指令集合，核心要求是与机器人硬件执行能力匹配，动作维度简洁且可落地。

1. 两种核心类型（机器人任务首选连续型）

类型	特点	适用场景	输出处理
连续型动作空间	动作值为连续区间（如 [-1,1]、[0, 10]），精度高，符合机器人底层控制需求	绝大多数机器人任务（关节力矩控制、无人机油门 / 舵量调节、机械臂关节角度控制）	需做动作缩放，将网络输出的标准区间（如 [-1,1]）映射到机器人硬件实际可控范围（如关节力矩 [-5N・m,5N・m]）
离散型动作空间	动作是有限个离散选项（如 “前进 / 后退 / 左转 / 右转”），决策简单，训练难度低	低精度控制任务（机器人步态相位切换、机械臂抓取模式选择）	无需缩放，网络输出各离散动作的概率，选择概率最大的动作执行

2. 关键设计原则

分层控制策略：复杂任务建议采用 “高层离散 + 低层连续” 的分层架构，避免动作空间维度爆炸：
- 高层（PPO 输出）：离散步态相位（如 “支撑相 / 摆动相”）、任务模式（如 “抓取 / 放置”）
- 低层：PD 控制器 / MPC 算法，将高层指令转换为具体的关节力矩 / 角度控制
动作维度精简：避免冗余动作（如双足机器人对称关节可共享动作指令），减少网络训练压力。
硬件约束匹配：动作范围必须在机器人硬件极限内（如关节最大转角、电机最大力矩），防止硬件损坏。

3. 实操示例（双足机器人行走）

动作空间类型：连续型
输出维度：12 个关节的目标力矩（对应 12 个关节）
处理流程：PPO 网络输出 [-1,1] 区间的动作值，通过线性缩放映射为 [-5N・m,5N・m] 的实际关节力矩，发送给底层电机控制器。

三、奖励函数（Reward Function）：机器人的 “学习指引”

奖励函数是机器人的 “老师”，定义了任务的优化目标，核心要求是能有效引导策略收敛，避免稀疏性与误导性，PPO 通过奖励信号计算优势函数，进而更新策略网络。

1. 核心设计原则（黄金法则）

目标对齐：奖励必须与任务最终目标高度一致（如行走任务奖励 “前进速度”，抓取任务奖励 “末端与目标的距离”）。
避免稀疏奖励：尽量设计稠密奖励（中间奖励），而非仅在任务完成时给予奖励（稀疏奖励会导致训练缓慢甚至无法收敛）。
惩罚冗余行为：对无效动作、危险行为、高能耗行为添加惩罚项，引导机器人高效完成任务。
数值平衡：各奖励 / 惩罚项的数值范围需匹配，避免某一项权重过大掩盖其他关键指标。

2. 奖励函数的组成结构（加权求和）

通用形式：Rtotal=w1⋅Rtask+w2⋅Rprogress+w3⋅Rconstraint+w4⋅Rtermination各部分详解：

组成部分	作用	示例（双足机器人行走）
任务核心奖励（Rtask，正奖励，权重最大）	直接激励任务目标达成	前进速度奖励：Rspeed=vx（vx为机身 x 方向前进速度，越快奖励越高）
进度引导奖励（Rprogress，正奖励，稠密）	激励任务逐步推进，解决稀疏性	距离奖励：Rdistance=−d（d为当前位置与目标点的距离，距离越小奖励越高）
约束惩罚奖励（Rconstraint，负奖励）	约束机器人行为，避免危险 / 低效	1. 姿态惩罚：Rpose=−∣θroll∣−∣θpitch∣（姿态倾斜越大惩罚越重）2. 能耗惩罚：Renergy=−0.01⋅∑∣τi∣（τi为关节力矩，能耗越高惩罚越重）3. 越界惩罚：Rbound=−10（超出地图边界时触发）
终止奖励（Rtermination，正 / 负奖励）	对任务完成 / 失败进行最终奖惩	1. 成功奖励：Rsuccess=100（到达目标点时触发）2. 失败惩罚：Rfail=−100（机身摔倒、电机过载时触发）

3. 实操优化技巧

奖励归一化：将总奖励映射到 [-1,1] 或 [0,1] 区间，提升训练稳定性。
动态权重调整：训练初期增大中间奖励权重，引导机器人探索；训练后期增大核心任务奖励权重，优化最终性能。
形状优化：对距离类指标采用非线性奖励（如R=−d2），增强对关键进度的激励。

四、完整实操示例（自定义机器人任务：机械臂抓取）

下面以 “机械臂抓取桌面上的立方体” 任务为例，展示三者的完整定义与代码实现（基于 Gymnasium 自定义环境）：

python

运行

import gymnasium as gym
import numpy as np
from gymnasium import spaces

class ArmGraspEnv(gym.Env):
    def __init__(self):
        super().__init__()
        # 1. 定义状态空间（共22维连续向量）
        self.observation_space = spaces.Box(
            low=-np.inf, high=np.inf,
            shape=(22,),  # 组成：机械臂关节状态(16维)+末端位置(3维)+目标位置(3维)
            dtype=np.float32
        )

        # 2. 定义动作空间（6维连续向量：对应6个关节的目标力矩）
        self.action_space = spaces.Box(
            low=-1.0, high=1.0,  # 网络输出区间
            shape=(6,),
            dtype=np.float32
        )

        # 机器人硬件参数：关节力矩实际范围[-3, 3] N·m
        self.action_scale = 3.0

    def _get_obs(self):
        # 采集实际状态（此处为模拟，实际需读取机器人传感器数据）
        joint_angles = np.random.rand(6) * np.pi  # 6个关节角度
        joint_vels = np.random.rand(6) * 2        # 6个关节角速度
        end_effector_pos = np.random.rand(3) * 10 # 机械臂末端位置
        target_pos = np.array([5.0, 5.0, 0.5])    # 目标立方体位置
        # 拼接状态向量并归一化
        obs = np.concatenate([
            joint_angles / np.pi,  # 归一化到[0,1]
            joint_vels / 2,        # 归一化到[0,1]
            end_effector_pos / 10, # 归一化到[0,1]
            target_pos / 10        # 归一化到[0,1]
        ])
        return obs.astype(np.float32)

    def step(self, action):
        # 动作缩放：将网络输出[-1,1]映射到实际力矩[-3,3]
        actual_action = action * self.action_scale

        # 获取当前状态
        obs = self._get_obs()
        end_effector_pos = obs[12:15] * 10  # 反归一化得到实际位置
        target_pos = obs[15:18] * 10

        # 3. 定义奖励函数（加权求和）
        # 核心任务奖励：末端与目标的距离（稠密奖励）
        distance = np.linalg.norm(end_effector_pos - target_pos)
        task_reward = -distance  # 距离越小，奖励越高

        # 进度奖励：末端接近目标的增量
        delta_distance = distance - self.last_distance
        progress_reward = 5.0 if delta_distance < 0 else -1.0

        # 约束惩罚：关节力矩过大（能耗惩罚）
        energy_punish = -0.01 * np.sum(np.abs(actual_action))

        # 终止奖励：抓取成功（距离<0.1）或失败（步数耗尽）
        done = False
        termination_reward = 0.0
        if distance < 0.1:
            termination_reward = 100.0
            done = True
        if self.step_count >= 500:
            termination_reward = -50.0
            done = True

        # 总奖励
        total_reward = (
            1.0 * task_reward +    # 权重1.0
            0.5 * progress_reward +# 权重0.5
            1.0 * energy_punish +  # 权重1.0
            2.0 * termination_reward # 权重2.0（最高，优先激励任务完成）
        )

        self.last_distance = distance
        self.step_count += 1

        return obs, total_reward, done, False, {}

    def reset(self, seed=None, options=None):
        super().reset(seed=seed)
        self.last_distance = 10.0
        self.step_count = 0
        return self._get_obs(), {}

# 测试环境与PPO训练
if __name__ == "__main__":
    from stable_baselines3 import PPO

    env = ArmGraspEnv()
    model = PPO(
        "MlpPolicy", env,
        learning_rate=3e-4,
        gamma=0.99,
        clip_range=0.2,
        verbose=1
    )

    # 训练
    model.learn(total_timesteps=500_000)
    # 测试
    obs, _ = env.reset()
    for _ in range(500):
        action, _ = model.predict(obs, deterministic=True)
        obs, reward, done, _, _ = env.step(action)
        if done:
            break