强化学习系列（4）：策略梯度算法（Policy Gradient）基础与应用

最新推荐文章于 2025-07-22 17:19:17 发布

原创

最新推荐文章于 2025-07-22 17:19:17 发布 · 1.4k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

强化学习系列（4）：策略梯度算法（Policy Gradient）基础与应用

一、策略梯度算法基本原理

核心思想

与基于值函数的强化学习方法（如DQN系列）不同，策略梯度算法直接对策略进行参数化表示，并通过优化策略的参数来最大化累计奖励。它基于策略梯度定理，通过计算奖励关于策略参数的梯度，然后沿着梯度方向更新策略参数，使得策略朝着能获得更高奖励的方向改进。

与值函数方法的区别

关注点不同：值函数方法（如DQN）重点关注估计每个状态下各动作的价值，通过学习值函数来间接得到最优策略；而策略梯度算法直接聚焦于策略本身，直接去寻找最优的策略参数。
输出不同：DQN类方法输出的是Q值（动作价值函数值），基于Q值来选择动作；策略梯度算法输出的是动作的概率分布（对于离散动作空间）或者是动作的具体取值（对于连续动作空间，通过特定的分布采样得到），直接决定采取的动作。

策略表示

通常采用神经网络来参数化策略，比如对于离散动作空间，网络的输出经过softmax函数转换为各个动作的概率，示例代码如下：

import torch
import torch.nn as nn

class PolicyNetwork(nn.Module):
    def __init__(self, input_size, output_size):
        super(PolicyNetwork, self).__init__()
        self.fc1 = nn.Linear(input_size, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, output_size)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return torch.softmax(x, dim=1)  # 输出动作概率分布

二、常见的策略梯度算法

REINFORCE算法

算法流程：
1. 初始化策略网络的参数。
2. 对于每个训练 episode：
  - 根据当前策略网络生成的动作概率分布，选择动作并与环境交互，记录整个 episode 中的状态、动作和奖励序列。
  - 计算每个时间步的回报（从当前时间步到 episode 结束的累计奖励，可通过折扣因子进行折扣计算）。
  - 根据策略梯度定理，计算策略梯度并更新策略网络的参数。
代码示例（关键部分）：

for episode in range(num_episodes):
    state, _ = env.reset()
    states, actions, rewards = [], [], []
    done = False
    while not done:
        state = torch