基于价值的强化学习

sslala

已于 2023-02-17 15:17:10 修改

阅读量901

点赞数 2

分类专栏：强化学习文章标签：人工智能深度学习

于 2023-02-17 15:01:36 首次发布

本文链接：https://blog.youkuaiyun.com/ss49344/article/details/129087072

版权

基于价值的强化学习，说白了，就是智能体采取了一个动作，这个动作的好坏用一个评价标准来评价它—Q动作值函数。
在后续的动作中，可以通过Q的计算了解到采取什么动作最好，从而达到指导智能体行动的目的。
强化学习中使用折扣回报来定义采取动作后得到的回报。

1. 折扣回报

定义： $U_t = R_t + \gamma R_{t+1} + \gamma ^2 R_{t+2} + \gamma ^3 R_{t+3} + …$

该回报表示在t时刻得到的即时奖励和 t+1, t+2 …后得到的折扣奖励。

该折扣回报就是用来评价采取一个行动是好坏的标准，回报越高，说明采取的行动越好。

特性： $U_t$ 回报是不确定的，因为它取决于状态和动作

$\pi (a | s)$ 策略函数
$P [S^{'} = s^{'} ∣ S = s, A = a] = p (s^{'} ∣ s, a)$ 状态转移概率

上述的策略和状态转移都是概率性的，所以折扣回报也是概率性的

2. action-value function 动作-值函数 $Q (s, a)$

可以反映在状态s下做动作a的好坏，其实也就是 $U_t$ 的期望：

动作值函数
$Q_\pi(s_t, a_t) = E(U_t | S_t = s_t, A_t = a_t)$

在状态s下，采取动作a的期望回报

最优动作值函数 $Q^*$
$Q^*(s_t, a_t) = \max_\pi Q_\pi (s_t, a_t)$

状态s下，最优动作a时的期望回报

3. DQN (Deep Q-Network)

其实就是用一个神经网络近似Q函数

求解 $Q^*$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sslala

关注关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Q学习 (Q-Learning)：基于价值函数的强化学习算法

因为不想回家，所以还是去搬砖。

01-30

2375

Q学习（Q-learning）是一种强化学习算法，主要用于解决离散时间的马尔可夫决策过程（MDP）。它通过与环境交互来学习一个策略，使得智能体能够在环境中采取最佳行动。Q学习的核心是学习一个Q值函数，表示在特定状态下采取某个行动的长期回报。Q值函数通常用 Q(s,a)Q(s, a)Q(s,a) 表示，其中 sss 是状态，aaa 是动作。智能体的目标是学习每个状态-动作对的Q值，以便能够选择使Q值最大化的动作。

强化学习--基于值函数的强化学习算法

秋曾万的博客

09-03

7101

在基础篇里我们已经介绍了，当我们得到一个最优值函数的时候，直接在每个状态下取使q(s,a)q(s,a)q(s,a)值最大的action就能得到一个最优的策略，于是一个求解最优策略的问题可以完完全全等效于一个寻找最优值函数的问题。本节就来探究寻找最优值函数的方法基于蒙特卡洛方法的理论回忆状态-行为值函数： qπ(s,a)=Eπ[∑k=0∞γkRt+k+1|St=s,At=a](37...

参与评论您还未登录，请先登录后发表或查看评论

强化学习《基于价值 - Q-Learning》

qq_29367075的博客

11-29

425

三：完整计算过程如下：翻译下就是：

【强化学习】强化学习（Reinforcement Learning, RL）详解

WW、forever的博客

02-16

4655

强化学习（Reinforcement Learning, RL）详解

基于价值的强化学习方法-时序差分法(TD)

HEU_Yutianqi的博客

04-18

1545

Q-Learning与SARSA——理论推导与代码实现

基于价值的学习算法

myblog

08-13

760

本博客介绍了Sarsa和Q-Learning两种基于价值的强化学习算法，并对比了二者的异同点。

【强化学习1--基于值的方法】

Jin的博客

03-02

1183

这篇文章是对强化学习学习思路的一个整理，主要介绍一下DQN算法

强化学习《基于价值 - Dueling Q-Learning》

qq_29367075的博客

11-29

529

和前面所讲的各种DQN算法不同，Dueling DQN将整个模型结构分成了两个部分，一个为状态值函数V，一个为优势函数A 式子如下：考虑到具体参数 W是公共部分的网络参数，α是V网络的参数，β是A网络的参数。 Dueling DQN中，输出结果变成Q=V+A，因为有时候在某种state，无论做什么动作，对下一个state都没有多大的影响，所以将Q-function分解为两部分。比如，在一个好的state，无论做什么action，都能得到很高的value；在一个很差的state，无论做什么action

基于蒙特卡洛树搜索和策略价值网络（强化学习）的AI五子棋算法

04-11

在本文中，我们将深入探讨如何使用蒙特卡洛树搜索（MCTS）和策略价值网络（Policy Value Network, PVN）结合强化学习方法，构建一个能够玩五子棋的AI算法。五子棋是一种策略性游戏，对于AI来说，理解和学习这种游戏...

基于强化学习与深度强化学习的游戏AI训练python源码+项目说明+论文+报告.zip

04-12

基于强化学习与深度强化学习的游戏AI训练python源码+项目说明+论文+报告.zip 基于强化学习与深度强化学习的游戏AI训练python源码+项目说明+论文+报告.zip 基于强化学习与深度强化学习的游戏AI训练python源码+项目...

人工智能-项目实践-强化学习-基于强化学习的五子棋

04-03

这个“基于强化学习的五子棋”项目将帮助你深入理解强化学习的应用，同时也能提升你在游戏AI开发方面的技能。通过实践，你可以看到理论知识如何转化为实际的智能行为，并在此过程中积累宝贵的经验。

基于深度强化学习的微网能量管理策略.zip

03-22

我们针对微电网的能源管理系统问题研究了各种深度强化学习算法的性能。我们提出了一种新颖的微电网模型，该模型由风力涡轮发电机，储能系统，恒温控制负载，价格响应负载以及与主电网的连接组成。拟议的能源管理系统...

深度强化学习-基于价值学习的高级技巧（五-1）

weixin_46737548的博客

04-16

920

之前讲了TD算法和DQN，但实际上原始的DQN效果并不是很理想，因此本节主要讲解一些TD算法或者DQN的改进策略。包括经验回放，高估问题(目标网络target network，double Q-learning)，噪声网络(Noisy Net)。

q学习基于价值的强化学习算法

weixin_26729375的博客

10-11

1533

Please follow this link to understand the basics of Reinforcement Learning.请点击此链接以了解强化学习的基础知识。 Let’s explain various components before Q-learning. 让我们在Q学习之前解释各种组件。基于策略的基于价值的RL (Policy-based vs value...

强化学习笔记：基于价值的学习之价值计算(python实现)

chenxy_bwave的专栏

01-18

2364

在强化学习中，根据是否依赖于模型，可以分为基于模型（model-based）的强化学习和无模型（model-free）的强化学习。根据策略的更新和学习方法，强化学习算法可以分为基于价值函数的学习方法和基于策略的学习方法。在基于价值函数的学习方法中，根据状态值函数（state-value function）的估计值，进行行动决策。比如说，从t时刻的状态出发，有K种行动可以选择：{}，在各行动分别迁移到状态{那选择哪个动作呢？

强化学习《基于价值 - Double Q-Learning》

qq_29367075的博客

11-29

434

基于Value的强化学习算法

Java与Android技术栈

12-10

355

在文章强化学习与马尔可夫决策中，介绍了使用马尔可夫决策模型对强化学习的过程进行建模，本篇文章将介绍基于这一模型而引出的一些强化学习的经典算法。Q-learningQ-learning是强...

深度强化学习 | 详解基于价值的强化学习DQN算法(附Pytorch实现)

FRIGIDWINTER的博客

12-26

3756

深度Q网络DQN的核心原理是通过经验回放池和目标网络技术拟合高维状态空间，是Q-Learning算法的深度学习版本，本文分析DQN的基本算法，并给出训练实例和实际案例

基于值网络的强化学习

XlltEditor的博客

09-21

174

值网络是强化学习的重要组成部分，用于估计状态或状态动作对的价值。在强化学习中，通常使用两种不同类型的值函数：状态值函数（State Value Function）和状态动作值函数（State-Action Value Function）。值网络（Value Network）是强化学习中的一个重要组成部分，它用于估计状态或状态动作对的价值。状态动作值函数（Q函数）：状态动作值函数估计在给定状态和动作下的预期累积奖励。在强化学习中，我们通常使用值函数来度量某个状态或状态动作对的价值，从而指导智能体做出决策。

强化学习基于价值与基于策略

最新发布

03-04

### 基于价值的方法与基于策略方法的比较 #### Q-Learning的核心原理 Q-Learning属于基于价值的学习方法，旨在学习最优的动作值函数$Q^*(s, a)$，即给定状态下采取某行动所能获得的最大期望回报。此方法利用贝尔曼方程迭代更新估计值，直到收敛至真实值[^1]。对于离散动作空间的任务而言，由于不需要显式定义环境模型即可工作良好，并且易于理解和实现，因此成为入门级研究者首选工具之一。 ```python import numpy as np def q_learning(env, num_episodes=500, alpha=0.8, gamma=0.95): """ 实现简单的Q-learning算法 """ # 初始化Q表 q_table = np.zeros([env.observation_space.n, env.action_space.n]) for i in range(num_episodes): state = env.reset() while True: action = choose_action(state, q_table) # 根据当前状态选择行为 next_state, reward, done, _ = env.step(action) old_value = q_table[state, action] next_max = np.max(q_table[next_state]) new_value = (1 - alpha) * old_value + \ alpha * (reward + gamma * next_max) q_table[state, action] = new_value if done: break state = next_state return q_table def choose_action(state, q_table, epsilon=0.1): """ ε-greedy 策略选取action""" ... ``` #### Policy Gradient的核心原理相比之下，Policy Gradient是一种直接针对参数化概率分布πθ(a|s)进行优化的技术，它试图最大化累积奖励关于这些参数的期望值。这种方法允许处理更广泛类型的决策过程——特别是那些涉及高维甚至无限大连续控制变量的情况，在这类环境中难以构建有效的表格表示法或近似器。通过梯度上升调整权重向量w使得目标J(w)=E[Rt]尽可能增大，其中Rt代表从时间步t开始到结束所收到的所有折扣后的即时奖励之和。值得注意的是，为了稳定训练并提高样本效率，通常会引入基线b(s_t; w_b)(如平均历史收益)来减少方差而不影响无偏性。 ```python import torch from torch.distributions import Categorical class PolicyGradientAgent(torch.nn.Module): def __init__(self, input_dim, output_dim): super().__init__() self.fc = torch.nn.Linear(input_dim, 64) self.out = torch.nn.Linear(64, output_dim) def forward(self, x): h = F.relu(self.fc(x)) logits = self.out(h) dist = Categorical(logits=logits) return dist.sample(), dist.log_prob(dist.sample()) agent = PolicyGradientAgent(observation_size, n_actions) for episode in range(total_episodes): obs = env.reset() log_probs = [] rewards = [] while not done: action, log_prob = agent(torch.tensor(obs).float()) new_obs, reward, done, info = env.step(action.item()) log_probs.append(log_prob) rewards.append(reward) obs = new_obs update_policy(agent.optimizer, log_probs, rewards) ``` #### 各自的优点与局限性 - **Q-Learning** - 优点：无需事先知道转移概率矩阵P(s'|s,a); 对小型有限MDPs非常有效；容易与其他技术相结合形成新的变种版本。 - 缺点：仅限用于低维度的状态-动作对组合；当面对大规模问题时可能会遇到计算资源瓶颈以及泛化能力不足等问题。 - **Policy Gradients** - 优点：可以直接作用于任何可微分的概率型映射关系之上；支持端到端的学习框架设计；更容易推广到复杂的现实世界挑战之中去。 - 缺点：性能高度依赖于初始化质量；存在较高的采样需求从而增加了探索成本；可能陷入局部极小解而非全局最优点附近徘徊不前。 #### 应用场景的选择依据如果任务具有较小规模、明确界限良好的离散选项集，则倾向于采用像DQN这样的value-based方案更为合适一些。而对于涉及到多模态感知输入或者需要精细调控输出幅度的情形来说，policy gradient family无疑提供了更加灵活强大的解决方案路径。

基于价值的强化学习

1. 折扣回报

2. action-value function 动作-值函数 Q ( s , a ) Q(s, a) Q(s,a)

3. DQN (Deep Q-Network)

2. action-value function 动作-值函数 $Q (s, a)$