58、强化学习：策略梯度与马尔可夫决策过程

最新推荐文章于 2025-11-02 12:51:43 发布

gin88

最新推荐文章于 2025-11-02 12:51:43 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精要文章标签：强化学习策略梯度马尔可夫决策过程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gin88/article/details/154941908

机器学习实战精要专栏收录该内容

75 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：策略梯度与马尔可夫决策过程

在强化学习领域，有多种算法可用于训练智能体以实现特定目标。本文将介绍策略梯度算法以及马尔可夫决策过程相关内容，帮助大家理解如何让智能体学习并优化其行为策略。

策略梯度算法

策略梯度（Policy Gradients，PG）算法的核心思想是通过朝着更高奖励的方向优化策略的参数。其中，REINFORCE 算法是一种流行的 PG 算法，由 Ronald Williams 在 1992 年提出。以下是其常见变体的具体步骤：
1. 多次游戏并计算梯度 ：让神经网络策略多次玩游戏，在每一步计算使所选动作更可能被选择的梯度，但暂不应用这些梯度。
2. 计算动作优势 ：运行多个回合后，计算每个动作的优势（通过前面提到的方法）。
3. 调整梯度 ：如果动作的优势为正，说明该动作可能是好的，应用之前计算的梯度使该动作在未来更可能被选择；如果优势为负，说明动作可能不好，应用相反的梯度使该动作在未来不太可能被选择。具体做法是将每个梯度向量乘以相应动作的优势。
4. 执行梯度下降 ：计算所有得到的梯度向量的均值，并使用它执行一次梯度下降步骤。

接下来，我们使用 tf.keras 实现该算法，训练神经网络策略以学会在小车上平衡杆子。

代码实现

首先，定义一个函数来执行一步游戏：

import tensorflow as tf
i

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。