最完整机械臂控制指南：用DDPG算法实现毫米级轨迹规划-优快云博客

最完整机械臂控制指南：用DDPG算法实现毫米级轨迹规划

【免费下载链接】easy-rl 强化学习中文教程（蘑菇书🍄），在线阅读地址：https://datawhalechina.github.io/easy-rl/ 项目地址: https://gitcode.com/datawhalechina/easy-rl

你还在为机械臂关节角度控制头疼吗？工业机器人编程是否让你望而却步？本文将用最通俗的方式，带你用强化学习实现机械臂精准轨迹控制。读完本文，你将掌握：

连续动作空间的核心挑战与解决方案
DDPG算法原理及在机械臂控制中的应用
从零开始搭建机械臂控制模型的完整流程
真实环境中的参数调优技巧

为什么传统控制方法在机械臂上失效？

机械臂控制面临的核心挑战在于其连续动作空间。传统编程方法需要为每个关节编写精确的角度控制代码，而6自由度机械臂就意味着6个连续变量的组合优化问题。如图12.1所示，离散动作（如游戏中的上下左右）与连续动作（如机械臂关节角度）有着本质区别。

图 12.1 离散动作和连续动作的区别 | 来源： docs/chapter12/chapter12.md

在实际应用中，机械臂每个关节的控制精度通常需要达到0.1度级别，这相当于在[-π, π]区间内进行1000级的精细控制。传统PID控制需要大量的手动参数调节，而环境稍有变化（如抓取物体重量不同）就需要重新校准。

DDPG：连续控制的革命性算法

深度确定性策略梯度（DDPG） 是解决连续控制问题的经典算法，其核心优势在于能够直接输出确定性动作值。如图12.4所示，DDPG算法名称中的三个关键词揭示了其本质：

图 12.4 DDPG算法核心特点 | 来源： docs/chapter12/chapter12.md

深度（Deep）：使用神经网络拟合策略和价值函数
确定性（Deterministic）：直接输出具体动作值而非概率分布
策略梯度（Policy Gradient）：通过梯度上升优化策略网络

DDPG采用演员-评论员（Actor-Critic） 架构，如图12.5所示。演员网络（策略网络）直接输出机械臂关节角度，评论员网络（Q网络）则评估该动作的好坏，两者协同进化。

图 12.5 从深度Q网络到DDPG的演进 | 来源： docs/chapter12/chapter12.md

机械臂控制模型搭建实战

核心网络结构设计

机械臂控制模型需要两个核心网络：策略网络（Actor）和价值网络（Critic）。以下是基于PyTorch的实现：

class Actor(nn.Module):
    def __init__(self, n_states, n_actions, hidden_dim=256):
        super(Actor, self).__init__()
        self.linear1 = nn.Linear(n_states, hidden_dim)
        self.linear2 = nn.Linear(hidden_dim, hidden_dim)
        self.linear3 = nn.Linear(hidden_dim, n_actions)
        
    def forward(self, x):
        x = F.relu(self.linear1(x))
        x = F.relu(self.linear2(x))
        x = torch.tanh(self.linear3(x))  # 输出范围[-1,1]
        return x  # 机械臂关节角度
    
class Critic(nn.Module):
    def __init__(self, n_states, n_actions, hidden_dim=256):
        super(Critic, self).__init__()
        self.linear1 = nn.Linear(n_states + n_actions, hidden_dim)
        self.linear2 = nn.Linear(hidden_dim, hidden_dim)
        self.linear3 = nn.Linear(hidden_dim, 1)
        
    def forward(self, state, action):
        x = torch.cat([state, action], 1)  # 状态和动作拼接
        x = F.relu(self.linear1(x))
        x = F.relu(self.linear2(x))
        x = self.linear3(x)  # 评估动作价值
        return x

代码片段来源：notebooks/DDPG.ipynb

值得注意的是，策略网络输出层使用了tanh函数，将输出限制在[-1,1]范围内，再根据机械臂实际关节角度范围进行缩放。如图12.3所示，这种设计确保了输出动作的安全性。

图 12.3 使用神经网络输出连续动作 | 来源： docs/chapter12/chapter12.md

演员-评论员架构：让机械臂学会自我修正

DDPG的核心创新在于演员-评论员（Actor-Critic） 架构。如图12.6所示，这个架构模拟了真实世界的训练场景：

图 12.6 演员-评论员结构示意图 | 来源： docs/chapter12/chapter12.md

演员（Actor）：即策略网络，负责输出机械臂的关节角度
评论员（Critic）：即价值网络，评估当前动作的好坏（Q值）

训练过程中，演员根据评论员的评分不断调整自己的动作策略，而评论员则根据环境反馈（机械臂是否到达目标位置）调整评分标准。这种双向反馈机制，使得机械臂能够在没有精确编程的情况下，通过试错学习到最优控制策略。

目标网络与经验回放：解决训练不稳定性

机械臂控制中，训练稳定性至关重要。DDPG通过两项关键技术解决了这一问题：

经验回放（Experience Replay）：将机械臂与环境交互的数据存储起来，然后随机采样进行训练，打破样本间的相关性。实现代码如下：

class ReplayBuffer:
    def __init__(self, capacity: int) -> None:
        self.capacity = capacity
        self.buffer = deque(maxlen=self.capacity)
        
    def push(self, transitions):
        self.buffer.append(transitions)
        
    def sample(self, batch_size: int):
        if batch_size > len(self.buffer):
            batch_size = len(self.buffer)
        batch = random.sample(self.buffer, batch_size)
        return zip(*batch)

代码片段来源：notebooks/DDPG.ipynb

目标网络（Target Network）：为策略网络和价值网络分别创建一个目标网络，用于计算稳定的目标Q值。目标网络的参数通过软更新方式缓慢跟进主网络：

# 软更新目标网络参数
for target_param, param in zip(self.target_critic.parameters(), self.critic.parameters()):
    target_param.data.copy_(
        target_param.data * (1.0 - self.tau) + param.data * self.tau
    )

代码片段来源：notebooks/DDPG.ipynb

这两项技术的结合，大幅提升了训练稳定性，使得DDPG能够在机械臂这种高维度连续控制任务中收敛。

从零开始：机械臂控制模型实现步骤

步骤1：环境建模与状态空间设计

机械臂控制的状态空间应包含：

各关节当前角度（6个自由度）
各关节角速度（6个自由度）
末端执行器位置（3D坐标）
目标位置（3D坐标）

总状态维度为6+6+3+3=18维。在实际实现中，可以使用OpenAI Gym的MuJoCo环境进行仿真，如FetchReach或HandManipulate环境。

步骤2：奖励函数设计

奖励函数设计直接影响训练效果，针对机械臂轨迹控制，推荐使用：

def compute_reward(state, action, next_state):
    # 末端执行器与目标的距离
    distance = np.linalg.norm(next_state[:3] - next_state[6:9])
    
    # 关节角度惩罚（避免极端角度）
    angle_penalty = np.sum(np.square(next_state[9:15])) * 0.1
    
    # 动作平滑惩罚（避免剧烈动作）
    action_penalty = np.sum(np.square(action)) * 0.01
    
    return -distance - angle_penalty - action_penalty

步骤3：DDPG核心参数设置

通过实验总结的最佳参数组合：

参数	推荐值	说明
策略网络隐藏层维度	256-512	机械臂控制建议使用256-512-256结构
评论网络隐藏层维度	256-512	同上
学习率（策略网络）	1e-4	通常比评论网络小一个数量级
学习率（评论网络）	1e-3
经验回放容量	1e6	机械臂任务需要更多样本
批大小	256
γ（折扣因子）	0.99
τ（软更新参数）	1e-3

参数调优指南：docs/chapter12/chapter12.md

步骤4：训练过程与探索策略

DDPG在训练时需要为动作添加噪声以保证探索，推荐使用OU噪声：

class OUNoise:
    def __init__(self, action_space, mu=0.0, theta=0.15, sigma=0.2):
        self.mu = mu
        self.theta = theta
        self.sigma = sigma
        self.action_dim = action_space.shape[0]
        self.reset()
        
    def reset(self):
        self.state = np.ones(self.action_dim) * self.mu
        
    def sample(self):
        x = self.state
        dx = self.theta * (self.mu - x) + self.sigma * np.random.randn(self.action_dim)
        self.state = x + dx
        return self.state

代码片段来源：notebooks/DDPG.ipynb

训练过程中，噪声强度应随训练进行逐渐减小，确保后期收敛到稳定策略。

步骤5：训练与评估

训练循环核心代码：

def train_ddpg(env, agent, max_episodes=1000):
    rewards = []
    for episode in range(max_episodes):
        state = env.reset()
        ou_noise.reset()
        episode_reward = 0
        
        for step in range(env._max_episode_steps):
            # 选择动作并添加噪声
            action = agent.select_action(state)
            action = ou_noise.sample() * 0.1 + action
            
            # 执行动作
            next_state, reward, done, _ = env.step(action)
            
            # 存储经验
            agent.replay_buffer.push((state, action, reward, next_state, done))
            
            # 训练
            agent.update()
            
            state = next_state
            episode_reward += reward
            
            if done:
                break
                
        rewards.append(episode_reward)
        if episode % 10 == 0:
            print(f"Episode: {episode}, Reward: {episode_reward:.2f}")
            
    return rewards

训练过程中，可以通过TensorBoard监控Q值和策略损失的变化，判断是否收敛。如图所示是一个典型的奖励曲线：