PPOxFamily项目教程：离散动作空间的PPO算法实现详解

戚巧琚Ellen

于 2025-06-25 09:05:38 发布

阅读量327

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00518/article/details/148888324

PPOxFamily项目教程：离散动作空间的PPO算法实现详解

PPOxFamily PPO x Family DRL Tutorial Course（决策智能入门级公开课：8节课帮你盘清算法理论，理顺代码逻辑，玩转决策AI应用实践）项目地址: https://gitcode.com/gh_mirrors/pp/PPOxFamily

引言

在深度强化学习领域，近端策略优化(PPO)算法因其出色的性能和稳定性而广受欢迎。本文将基于PPOxFamily项目，深入讲解如何在离散动作空间中实现PPO算法。离散动作空间是强化学习中最常用的动作空间之一，常见于虚拟娱乐应用(如经典平台游戏、模拟环境等)和各类决策任务中。

PPO算法核心思想

PPO算法结合了经典的Actor-Critic范式和信任区域策略优化方法，通过以下裁剪替代目标函数实现稳定高效的政策优化：

$$J(\theta) = \min(\frac{\pi_{\theta}(a_{t}|s_{t})}{\pi_{\theta_k}(a_{t}|s_{t})}A^{\theta_k}(s_{t},a_{t}),\text{clip}(\frac{\pi_{\theta}(a_{t}|s_{t})}{\pi_{\theta_k}(a_{t}|s_{t})}, 1-\epsilon,1+\epsilon)A^{\theta_k}(s_{t},a_{t}))$$

这个目标函数是未裁剪目标函数的下界(悲观界)，它只在概率比的变化会改善目标时忽略这种变化，而在会使目标变差时包含这种变化。

离散动作空间策略网络实现

1. 基本离散动作策略网络

class DiscretePolicyNetwork(nn.Module):
    def __init__(self, obs_shape: int, action_shape: int) -> None:
        super(DiscretePolicyNetwork, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(obs_shape, 32),
            nn.ReLU(),
        )
        self.head = nn.Linear(32, action_shape)
    
    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.encoder(x)
        logit = self.head(x)
        return logit

关键点解析：

编码器部分：将原始状态映射为嵌入向量，这里使用单层MLP(全连接层+ReLU激活函数)
头部网络：输出每个可能离散动作的logit值(未归一化的对数概率)
前向传播：状态→编码器→头部网络→logit

2. 多离散动作策略网络

class MultiDiscretePolicyNetwork(nn.Module):
    def __init__(self, obs_shape: int, action_shape: List[int]) -> None:
        super(MultiDiscretePolicyNetwork, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(obs_shape, 32),
            nn.ReLU(),
        )
        self.head = nn.ModuleList()
        for size in action_shape:
            self.head.append(nn.Linear(32, size))
    
    def forward(self, x: torch.Tensor) -> List[torch.Tensor]:
        x = self.encoder(x)
        logit = [h(x) for h in self.head]
        return logit

关键点解析：

多头部设计：针对每个子动作空间都有一个独立的头部网络
模块化列表：使用nn.ModuleList管理多个头部网络
前向传播：状态→共享编码器→多个头部网络→多个logit输出

动作采样函数

def sample_action(logit: torch.Tensor) -> torch.Tensor:
    prob = torch.softmax(logit, dim=-1)
    dist = torch.distributions.Categorical(probs=prob)
    return dist.sample()

关键点解析：

Softmax转换：将logit转换为概率分布
分类分布：使用PyTorch的Categorical分布表示离散动作空间
采样过程：从概率分布中采样一个动作

测试与验证

1. 基本离散动作测试

def test_sample_discrete_action():
    B, obs_shape, action_shape = 4, 10, 6
    state = torch.rand(B, obs_shape)
    policy_network = DiscretePolicyNetwork(obs_shape, action_shape)
    logit = policy_network(state)
    action = sample_action(logit)

2. 多离散动作测试

def test_sample_multi_discrete_action():
    B, obs_shape, action_shape = 4, 10, [4, 5, 6]
    state = torch.rand(B, obs_shape)
    policy_network = MultiDiscretePolicyNetwork(obs_shape, action_shape)
    logit = policy_network(state)
    for i in range(len(logit)):
        action_i = sample_action(logit[i])

测试要点：