10、策略梯度强化学习：原理与实践

原创于 2025-11-08 13:34:48 发布 · 15 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#策略梯度 #强化学习 #自我对弈

深度学习征服围棋专栏收录该内容

16 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

策略梯度强化学习：原理与实践

1. 策略梯度学习简介

在游戏中，我们希望通过经验数据提升智能体的表现，使其更常获胜。之前的智能体使用神经网络选择移动，若随机改变网络中的权重，智能体将选择不同的移动，结果可能变好或变差，具有随机性。而策略梯度学习提供了一种估计权重调整方向的方法，以提升智能体的任务能力。

策略学习方法的工作原理如下：
1. 当智能体获胜时，增加其选择的每个移动的概率。
2. 当智能体失败时，降低其选择的每个移动的概率。

2. 简单游戏示例：Add It Up

为了引入策略学习，我们从一个比围棋简单得多的游戏“Add It Up”开始。游戏规则如下：
- 每一轮，每个玩家选择一个1到5之间的数字。
- 100轮后，每个玩家将他们选择的所有数字相加。
- 总和较高的玩家获胜。

这个游戏的最优策略是每轮都选择5。我们从一个纯随机策略开始，即每个选项被选中的概率相等（均匀随机）。以下是模拟这种随机选择的Python代码：

import numpy as np
counts = {1: 0, 2: 0, 3: 0, 4: 0, 5: 0}
for i in range(100):
    choice = np.random.choice([1, 2, 3, 4, 5],
                              p=[0.2, 0.2, 0.2, 0.2, 0.2])
    counts[choice] += 1
print(counts)

即

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

五行擒拿术

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

强化学习算法：策略梯度 (Policy Gradient) 原理与代码实例讲解

06-23

1317

强化学习算法：策略梯度 (Policy Gradient) 原理与代码实例讲解 1.背景介绍 强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，旨在通过与环境的交互来学习最优策略。策略梯度（Policy Gra

强化学习Reinforcement Learning与逆强化学习：理论与实践

欢迎来到我的优快云空间！这里聚焦AI大模型应用实战，分享前沿技术、实战案例与开发经验。

11-29

1444

强化学习Reinforcement Learning与逆强化学习：理论与实践关键词：强化学习，逆强化学习，马尔可夫决策过程，策略学习，逆策略优化，因果图模型，决策树 1. 背景介绍

参与评论您还未登录，请先登录后发表或查看评论

强化学习极简入门：通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO

热门推荐

结构之法算法之道

02-10

12万+

强化学习里面的概念、公式，相比ML/DL特别多，初学者刚学RL时，很容易被接连不断的概念、公式给绕晕，而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去，如今都看得懂了，故如果读文本之前，你正在被RL各种公式困扰，相信看完这篇RL极简入门后就完全不一样了)。

强化学习方法论：核心原理与实践路径

kunming19850325的博客

04-08

1664

例如，在自动驾驶的决策系统中，Actor网络根据当前的路况、车辆状态等信息决定行驶速度和转向角度等动作，Critic网络则根据车辆的实际行驶情况（如是否保持安全距离、是否遵守交通规则等）评估Actor网络选择的动作的价值，并将评估结果反馈给Actor网络，指导其优化策略。智能体在每个状态下选择Q值最大的动作执行（即ε - 贪婪策略，以1 - ε的概率选择Q值最大的动作，以ε的概率随机选择动作，以平衡探索与利用），并根据环境反馈的奖励和新状态不断更新Q值。其中，α是学习率，控制每次更新的步长。

深入强化学习：原理、算法及应用实践

weixin_42598278的博客

05-23

1546

强化学习是一种机器学习范式，旨在让机器通过与环境交互来学习如何在特定的环境中实现最大化累计奖励。其核心理念源于行为心理学，即通过奖励（正反馈）和惩罚（负反馈）来训练智能体（Agent）做出正确决策。在强化学习中，状态通常指的是环境在某一时刻的完整描述。它可以是一个简单的表示，如棋盘上的布局，或者一个复杂的多维特征向量，如机器人感知周围环境的传感器数据。状态是环境向学习代理呈现的信息，代理需要根据这些信息做出决策。理解状态在强化学习中的作用至关重要。首先，状态为代理提供了进行决策所需的上下文信息。

强化学习：确定性策略梯度（DDPG）

燕双嘤

04-07

1万+

整个确定性策略梯度方法沿用了行动者-评论家学习框架，评论家（Critie）使用可微近似函数估计行为值函数，行动者（Actor）朝着行为值函数梯度方向更新策略参数。在引入AC框架之前，大多数无模型强化学习算法都是基于广义策略迭代框架，将策略评估与策略改进相结合求解最优值。

强化学习原理python篇07——策略梯度法

wurobb的博客

01-31

1598

本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning]Policy Gradient Methods 章节，请各位结合阅读，本合集只专注于数学概念的代码实现。

强化学习中的Q学习与策略梯度方法解析

weixin_35750747的博客

04-14

533

本篇博客深入探讨了强化学习中的两种关键算法：Q学习和策略梯度方法。首先介绍了Q学习的理论基础，包括价值函数和Q函数的定义，以及如何通过贝尔曼方程进行求解。随后，文章转向策略梯度方法，解释了如何通过参数化策略来优化状态值函数，并讨论了演员-评论家模型的扩展。文章通过实例和数学公式详细阐述了算法的核心概念，旨在为读者提供一个清晰、实用的强化学习入门指导。

策略梯度方法详解：策略梯度定理与REINFORCE算法

04-28

777

1. 背景介绍 1.1 强化学习与策略梯度方法 强化学习 (Reinforcement Learning, RL) 旨在让智能体 (Agent) 通过与环境的交互学习到最优策略，从而在特定任务中获得最大化的累积奖励。策略梯度方法是强化学习中的一类重要算法，它通过直接优化策略来最大化期望回报，而

TensorLayer强化学习策略梯度方差减少：基线与控制变量方法

gitblog_00739的博客

11-05

1022

策略梯度（Policy Gradient）方法是强化学习中直接优化策略函数的重要技术，但高方差问题常导致训练不稳定。本文基于TensorLayer框架，详解基线（Baseline）和控制变量（Control Variates）两种方差减少技术的原理与实现，帮助开发者构建更稳定的强化学习模型。 ## 策略梯度的方差挑战策略梯度方法通过参数化策略函数 $\pi_\theta(a|s)$ 直接优化...

极简便签是一款基于现代Web技术构建的跨平台桌面应用程序_它专注于提供轻量级高效能的个人笔记与备忘管理解决方案_通过简洁直观的用户界面实现便签的快速创建编辑分类与检索_并支持.zip

01-08

给排水燃气施工组织设计-深水港东海大桥工程

01-08

代码下载地址： https://pan.quark.cn/s/27ee59d7aa74 license Vue vben admin English | 中文 Introduction Vue Vben Admin is a free and open source middle and back-end template. Using the latest , , and other mainstream technology development, the out-of-the-box middle and back-end front-end solutions can also be used for learning reference. Feature State of The Art Development：Use front-end front-end technology development such as Vue3/vite2 TypeScript: Application-level JavaScript language Theming: Configurable themes International：Built-in complete internationalization program Mock Server Built-in mock data scheme Authority Built-in complete dynamic routing permission generation scheme. Component Multiple commonly used components are encapsulate...

lhccong_sql-slow-mirror_162304_1767850148034.zip

01-08

lhccong_sql-slow-mirror_162304_1767850148034.zip

360连接云 qconnect

01-08

360连接云 qconnect

基于Windows7操作系统环境下的移动端应用开发实践项目_面向初学者的Android与iOS跨平台手机应用程序开发入门指南与实战案例资源库_旨在为开发者提供从零开始构建首个手机.zip

01-08

jquery控制checkbox全选反选

最新发布

01-08

先看效果： https://pan.quark.cn/s/ec75559e4c64 在jQuery中，对复选框（checkbox）执行全选、反选或全不选的操作是一种常见的需求，特别是在进行用户交互设计时。这里展示了一个基于jQuery的简单实现，其中包含了三个独立的事件处理器来完成这些功能。以下是详细的技术要点说明：1. **prop() 与 attr() 的应用差异**：在jQuery中，`attr()` 和 `prop()` 都可以用来获取或设置元素的属性，但它们在功能上有所区别。 `attr()` 主要用于操作HTML属性，而 `prop()` 更适用于处理DOM元素的内在属性。针对 `checked` 属性，使用 `prop()` 是更恰当的选择，因为它不仅涉及HTML标记，还涉及到元素的状态管理。在所提供的代码中，`prop()` 被用于修改复选框的选中状态。 2. **全选功能的实现**： `$(#allChecked).change(function() { ... })`：这个事件监听器会在 `#allChecked` 复选框的选中状态发生变化时被激活。其内部代码 `$(#box).children(:checkbox).prop(checked, $(this).is(:checked) ? true : false)` 负责将 `#box` 元素内部所有子复选框的选中状态与 `#allChecked` 复选框保持一致。如果 `#allChecked` 被选中，则所有子复选框都会被选中；如果 `#allChecked` 未被选中，则所有子复选框都会被取消选中。 3. **反选功能的实现**： `$(#invertChecked).change(f...

flower014__175128_1767856282414.zip

01-08

flower014__175128_1767856282414.zip

MING-ZCH_Awesome-LangChain-for-LLM-Application-Development_175128_1767849890200.zip

01-08

MING-ZCH_Awesome-LangChain-for-LLM-Application-Development_175128_1767849890200.zip

Nodejs后端服务构建与数据库缓存集成实践项目_通过Nodejs环境搭建实现MySQL数据库连接与Redis缓存机制整合的完整示例_旨在为开发者提供一个清晰易懂的教程式代码库.zip

01-08

Matlab环境下强化学习的策略梯度简易代码

通过这段代码，用户可以学习到强化学习中的梯度策略和策略梯度的概念、原理以及应用，同时也能够加深对Matlab作为开发和实验环境的理解。对于希望在强化学习领域打下坚实基础的学习者来说，这是一个很好的起点。