强化学习系列(4):策略梯度算法(Policy Gradient)基础与应用

强化学习系列(4):策略梯度算法(Policy Gradient)基础与应用

一、策略梯度算法基本原理

核心思想

与基于值函数的强化学习方法(如DQN系列)不同,策略梯度算法直接对策略进行参数化表示,并通过优化策略的参数来最大化累计奖励。它基于策略梯度定理,通过计算奖励关于策略参数的梯度,然后沿着梯度方向更新策略参数,使得策略朝着能获得更高奖励的方向改进。

与值函数方法的区别

  • 关注点不同:值函数方法(如DQN)重点关注估计每个状态下各动作的价值,通过学习值函数来间接得到最优策略;而策略梯度算法直接聚焦于策略本身,直接去寻找最优的策略参数。
  • 输出不同:DQN类方法输出的是Q值(动作价值函数值),基于Q值来选择动作;策略梯度算法输出的是动作的概率分布(对于离散动作空间)或者是动作的具体取值(对于连续动作空间,通过特定的分布采样得到),直接决定采取的动作。

策略表示

通常采用神经网络来参数化策略,比如对于离散动作空间,网络的输出经过softmax函数转换为各个动作的概率,示例代码如下:

import torch
import torch.nn as nn

class PolicyNetwork(nn.Module):
    def __init__(self, input_size, output_size):
        super(PolicyNetwork, self).__init__()
        self.fc1 = nn.Linear(input_size, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, output_size)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return torch.softmax(x, dim=1)  # 输出动作概率分布

二、常见的策略梯度算法

REINFORCE算法

  • 算法流程
    1. 初始化策略网络的参数。
    2. 对于每个训练 episode:
      • 根据当前策略网络生成的动作概率分布,选择动作并与环境交互,记录整个 episode 中的状态、动作和奖励序列。
      • 计算每个时间步的回报(从当前时间步到 episode 结束的累计奖励,可通过折扣因子进行折扣计算)。
      • 根据策略梯度定理,计算策略梯度并更新策略网络的参数。
  • 代码示例(关键部分)
for episode in range(num_episodes):
    state, _ = env.reset()
    states, actions, rewards = [], [], []
    done = False
    while not done:
        state = torch
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值