强化学习系列(4):策略梯度算法(Policy Gradient)基础与应用
一、策略梯度算法基本原理
核心思想
与基于值函数的强化学习方法(如DQN系列)不同,策略梯度算法直接对策略进行参数化表示,并通过优化策略的参数来最大化累计奖励。它基于策略梯度定理,通过计算奖励关于策略参数的梯度,然后沿着梯度方向更新策略参数,使得策略朝着能获得更高奖励的方向改进。
与值函数方法的区别
- 关注点不同:值函数方法(如DQN)重点关注估计每个状态下各动作的价值,通过学习值函数来间接得到最优策略;而策略梯度算法直接聚焦于策略本身,直接去寻找最优的策略参数。
- 输出不同:DQN类方法输出的是Q值(动作价值函数值),基于Q值来选择动作;策略梯度算法输出的是动作的概率分布(对于离散动作空间)或者是动作的具体取值(对于连续动作空间,通过特定的分布采样得到),直接决定采取的动作。
策略表示
通常采用神经网络来参数化策略,比如对于离散动作空间,网络的输出经过softmax函数转换为各个动作的概率,示例代码如下:
import torch
import torch.nn as nn
class PolicyNetwork(nn.Module):
def __init__(self, input_size, output_size):
super(PolicyNetwork, self).__init__()
self.fc1 = nn.Linear(input_size, 64)
self.fc2 = nn.Linear(64, 64)
self.fc3 = nn.Linear(64, output_size)
def forward(self, x):
x = torch.relu(self.fc1(x))
x = torch.relu(self.fc2(x))
x = self.fc3(x)
return torch.softmax(x, dim=1) # 输出动作概率分布
二、常见的策略梯度算法
REINFORCE算法
- 算法流程:
- 初始化策略网络的参数。
- 对于每个训练 episode:
- 根据当前策略网络生成的动作概率分布,选择动作并与环境交互,记录整个 episode 中的状态、动作和奖励序列。
- 计算每个时间步的回报(从当前时间步到 episode 结束的累计奖励,可通过折扣因子进行折扣计算)。
- 根据策略梯度定理,计算策略梯度并更新策略网络的参数。
- 代码示例(关键部分):
for episode in range(num_episodes):
state, _ = env.reset()
states, actions, rewards = [], [], []
done = False
while not done:
state = torch

最低0.47元/天 解锁文章
1307

被折叠的 条评论
为什么被折叠?



