深度强化学习task03

本文深入探讨了Q-learning,一种强化学习的方法,重点在于学习Q-function以评估不同action的价值。同时,文章介绍了Target Network的概念,并讨论了在DQN中采用价值函数近似的原因。此外,还阐述了critic output与state、actor的关系,以及state-action value function与state value function的区别和联系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. Q-learning

**Q-learning **是value-based 的方法。在value-based 的方法里面,我们 learn 的不是 policy,我们要 learn 的是一个criticCritic 并不直接采取行为,它想要做的事情是评价现在的行为有多好或是有多不好。假设有一个actor π ,critic 就是来评价这个 actor 的 policy π 好还是不好,即 Policy Evaluation(策略评估)

举例来说,有一种 critic叫做 state value functionState value function 的意思就是说,假设actor 叫做 π,拿 π跟环境去做互动。假设 π看到了某一个state s ,如果在玩 Atari 游戏的话,state s是某一个画面,看到某一个画面的时候,接下来一直玩到游戏结束,累积的 reward 的期望值有多大。是一个 function,这个 function input 一个state ,然后它会 output 一个 scalar。这个 scalar 代表说,π这个 actor看到state s的时候,接下来预期到游戏结束的时候,它可以得到多大的 value。

虽然表面上我们 learn 一个 Q-function,它只能拿来评估某一个 actor π 的好坏,但只要有了这个 Q-function,我们就可以做 reinforcement learning。有了这个 Q-function,我们就可以决定要采取哪一个 action,我们就可以进行策略改进(Policy Improvement)

在这里插入图片描述

2.Target Network

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. QA

  1. 为什么在DQN中采用价值函数近似(Value Function Approximation)的表示方法?

首先DQN为基于深度学习的Q-learning算法,而在Q-learning中,我们使用表格来存储每一个state下action的reward,即我们前面所讲的状态-动作值函数 Q(s,a)Q(s,a) 。但是在我们的实际任务中,状态量通常数量巨大并且在连续的任务中,会遇到维度灾难的问题,所以使用真正的Value Function通常是不切实际的,所以使用了价值函数近似(Value Function Approximation)的表示方法。

  1. critic output通常与哪几个值直接相关?

critic output与state和actor有关。我们在讨论output时通常是对于一个actor下来衡量一个state的好坏,也就是state value本质上来说是依赖于actor。不同的actor在相同的state下也会有不同的output。

  1. state-action value function(Q-function)和 state value function的有什么区别和联系?

state value function 的 input 是一个 state,它是根据 state 去计算出,看到这个state 以后的 expected accumulated reward 是多少。
tate-action value function 的 input 是一个 state 跟 action 的 pair,即在某一个 state 采取某一个action,假设我们都使用 actor \piπ ,得到的 accumulated reward 的期望值有多大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值