20、强化学习：策略梯度实现、优化及游戏应用

Light

于 2025-11-09 12:13:00 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch强化学习实战文章标签：强化学习策略梯度高斯A2C

本文链接：https://blog.youkuaiyun.com/Light/article/details/154633271

PyTorch强化学习实战专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：策略梯度实现、优化及游戏应用

1. 连续控制与高斯 A2C 算法

1.1 算法设置

首先，我们将折扣因子设为 0.9：

gamma = 0.9

使用刚刚开发的策略网络，通过演员 - 评论家（actor - critic）算法进行 200 个回合的连续控制，并记录每个回合的总奖励：

n_episode = 200
total_reward_episode = [0] * n_episode
actor_critic(env, policy_net, n_episode, gamma)

1.2 结果可视化

为了直观展示回合奖励随时间的变化，我们使用 matplotlib 库进行绘图：

import matplotlib.pyplot as plt
plt.plot(total_reward_episode)
plt.title('Episode reward over time')
plt.xlabel('Episode')
plt.ylabel('Total reward')
plt.show()

1.3 算法原理

在这个过程中，我们使用高斯 A2C 算法解决连续的山地车环境问题。网络有一个隐藏层，输出层包含三个部分：高斯分布的均值、标准差以及状态值。分布均

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Light

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

强化学习算法：策略梯度 (Policy Gradient) 原理与代码实例讲解

AI天才研究院

06-23

1285

强化学习算法：策略梯度 (Policy Gradient) 原理与代码实例讲解 1.背景介绍 强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，旨在通过与环境的交互来学习最优策略。策略梯度（Policy Gra

强化学习Reinforcement Learning中梯度下降法的应用与优化

AI天才研究院

06-27

947

1. 背景介绍 1.1 问题的由来 强化学习是一种通过与环境交互来学习最优行为策略的机器学习方法。在这个过程中，梯度下降法作为一种优化算法，被广泛应用于参数求解。然而，如何正确、高效地应用梯度下降法，以及如何针对强化学习中的特殊问题进行优化，一直是研究的重要课题。

参与评论您还未登录，请先登录后发表或查看评论

强化学习极简入门：通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO

热门推荐

结构之法算法之道

02-10

12万+

强化学习里面的概念、公式，相比ML/DL特别多，初学者刚学RL时，很容易被接连不断的概念、公式给绕晕，而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去，如今都看得懂了，故如果读文本之前，你正在被RL各种公式困扰，相信看完这篇RL极简入门后就完全不一样了)。

强化学习5：策略梯度推导

北_鱼的博客

08-26

1382

策略梯度方法在强化学习中非常重要，因为它们允许我们直接优化策略函数，而不需要对环境模型进行显式建模。这种方法在处理高维、复杂动作空间和连续动作空间时特别有效，因为它们可以处理直接对策略参数进行优化的问题，而不需要离散化动作或状态。此外，策略梯度方法能够在策略空间中探索更为复杂和灵活的策略，从而找到潜在的更优解。

【RL Base】强化学习：信赖域策略优化（TRPO）算法

博主关注人工智能、强化学习、嵌入式等||985高校A+学科研究生、猿龄六年||优快云博客专家、2024年博客之星TOP33、华为云享专家、人工智能领域优质创作者。

11-30

3489

在强化学习（RL）领域，如何稳定地优化策略是一个核心挑战。2015 年，由 John Schulman 等人提出的信赖域策略优化（Trust Region Policy Optimization, TRPO）算法为这一问题提供了优雅的解决方案。TRPO 通过限制策略更新的幅度，避免了策略更新过大导致的不稳定问题，是强化学习中经典的策略优化方法之一。TRPO 是一种基于策略梯度的优化算法，其目标是通过限制新策略和旧策略之间的差异来确保训练的稳定性。TRPO 在高维、连续动作空间中表现尤为出色

强化学习系列（4）：策略梯度算法（Policy Gradient）基础与应用

Azperk的博客

03-13

1392

与基于值函数的强化学习方法（如DQN系列）不同，策略梯度算法直接对策略进行参数化表示，并通过优化策略的参数来最大化累计奖励。它基于策略梯度定理，通过计算奖励关于策略参数的梯度，然后沿着梯度方向更新策略参数，使得策略朝着能获得更高奖励的方向改进。

策略梯度算法（Policy Gradient Methods）：直接优化策略的强化学习范式

weixin_71288092的博客

05-02

1301

策略梯度算法通过直接优化策略函数（Policy Function）来最大化累积奖励，而非间接优化值函数（如Q-learning）。其核心是梯度上升：计算预期回报对策略参数的梯度，并沿梯度方向更新策略。

强化学习：确定性策略梯度（DDPG）

燕双嘤

04-07

1万+

整个确定性策略梯度方法沿用了行动者-评论家学习框架，评论家（Critie）使用可微近似函数估计行为值函数，行动者（Actor）朝着行为值函数梯度方向更新策略参数。在引入AC框架之前，大多数无模型强化学习算法都是基于广义策略迭代框架，将策略评估与策略改进相结合求解最优值。

强化学习 - 基于策略搜索和策略优化: 高斯策略

weixin_43673156的博客

01-27

1559

最近在做毕设需要用强化学习来做控制，对强化学习的知识点做一下总结。高斯策略属于强化学习中的基于策略优化的分支（Policy Optimization），尤其是策略梯度方法（Policy Gradient Methods）的一部分。这一分支专注于通过优化策略的参数来直接提升策略的性能，而不需要显式地学习一个价值函数。强化学习可以按照以下几个主要分支分类：基于价值函数的方法（Value-Based Methods）基于策略的方法（Policy-Based Methods）基于策略与价值的混合方法（Actor-

【强化学习】近端策略优化算法(PPO)万字详解（附代码）

12-26

5万+

PPO（Proximal Policy Optimization）是一种强化学习算法，设计的目的是在复杂任务中既保证性能提升，又让算法更稳定和高效。以下用通俗易懂的方式介绍其核心概念和流程。 PPO 是 OpenAI 在 2017 年提出的一种策略优化算法，专注于简化训练过程，克服传统策略梯度方法（如TRPO）的计算复杂性，同时保证训练效果。问题：在强化学习中，直接优化策略会导致不稳定的训练，模型可能因为过大的参数更新而崩溃。解决方案：PPO通过限制策略更新幅度，使

RL Base强化学习：信赖域策略优化（TRPO）算法TensorFlow实现

11-23

由于其稳定性和高效性，TRPO被认为是强化学习领域中的一个重要里程碑，并且为后续策略梯度方法的研究提供了重要的理论基础和实践指导。由于TRPO算法的复杂性和计算密集性，它也面临着一些挑战，如在复杂环境中需要...

基于改进YOLOv8的文本识别检测系统源码分享与一条龙教学项目_该项目是一个集成了从数据准备到模型部署全流程的深度学习应用系统核心内容围绕YOLOv8目标检测模型在复杂文本识别任.zip

12-12

（63页PPT）某智慧小区全面解决方案.pptx

12-12

（63页PPT）某智慧小区全面解决方案.pptx

（74页PPT）DG大型制造业企业数据架构顶层设计总体规划方案.pptx

12-12

（74页PPT）DG大型制造业企业数据架构顶层设计总体规划方案.pptx

（80页PPT）社会综治一网统管解决方案.pptx

12-12

（80页PPT）社会综治一网统管解决方案.pptx

12-12

12-12

12-12

基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点]（选址定容）(Matlab代码实现)