
深度强化学习
文章平均质量分 60
DKwtno
努力是有瘾的(github同名)
展开
-
【MADRL】MADDPG运行MPE
MADDPG,MADRL,MPE,pytorch原创 2022-04-25 18:34:06 · 1581 阅读 · 2 评论 -
8.Actor-Critic+A2C+A3C
目录深度强化学习目录简介之前讲了Policy-based方法,讲了Value-based方法,现在来讲一下结合两种方法的Actor-Critic。符号rtr_trt:t时刻的即时奖赏。RθR_\thetaRθ:使用参数θ\thetaθ时,某轮游戏的累积奖赏。GtG_tGt:时间从t到结束的累积奖赏,由于t时刻的奖励是采取行动后t+1时刻才拥有的,所以GtG_tGt满足:Gt=rt+1+rt+2+…G_t={r_{t+1}+r_{t+2}+\ldots}Gt=rt+1+rt+2+原创 2020-07-16 11:42:01 · 398 阅读 · 0 评论 -
7.连续空间上的Q-learning
目录深度强化学习目录简介Q-learning的实现是比较简单的,但只能用在离散行为空间的情况下。在连续空间中该怎么操作?比较常见的方法是将连续空间离散化,从AAA中采样,然后再用传统的方法运算。但这种方法是有限的,且效果一般。还有一种方法是gradient ascent。我们知道采取的行为a满足:a=argmaxa∈AQ(s,a)a=arg\max_{a\in A}Q(s,a)a=arga∈AmaxQ(s,a)我们把a当做参数,利用梯度上升的方法最大化Q值,一样可以做。但是问题在于运算量过大,且原创 2020-07-15 18:56:59 · 1204 阅读 · 0 评论 -
6.DQN(Deep Q-Network)+Double DQN+Dueling DQN
目录深度强化学习目录简介DQN(Deep Q-Network),顾名思义,就是将Q-learning与深度学习相结合。具体点讲,就是把Q-learning中估算Q值函数的模型应用为神经网络,一般我们用的是三层CNN结构。DQN在实际操作中会遇到一个问题,就是过度高估(over-estimate)Q值函数。于是我们使用Double DQN来缓解这个问题。Double DQN什么叫过度高估Q值函数?举个例子,我们用DQN玩游戏,在状态s的时候训练得到的Q值是100,而实际玩了一盘下来发现远不到100原创 2020-07-15 10:55:00 · 2150 阅读 · 0 评论 -
5.Q-learning
目录深度强化学习目录简介上篇文章里讲了MC算法和TD算法,不过用的是V值函数,这回我们学习Q函数。在贝尔曼方程那一篇文章里我们说过,Q函数可以表示成最优Bellman等式的形式,且最优的Q等价于最优的策略π⋆\pi^\starπ⋆,又策略π\piπ一定可以收敛到最优策略π′\pi'π′,Q-learning就是基于这些思想来实现的。实现运用到的技术前面讲到了,Q-learning实际上就是对Q值函数使用TD算法(至于为什么不用MC算法,我也不清楚,可能是因为方差太大了吧)。TD算法的核心只有一个公原创 2020-07-13 21:05:04 · 653 阅读 · 0 评论 -
4.蒙特卡洛(Monte-Carlo, MC)+时序差分(Temporal Difference, TD)
目录深度强化学习目录简介之前讲的PG算法和PPO算法,都是Policy-based的方法,接下来我们要讲Value-based的方法。之前说过了,P-B方法和V-B方法的区别在于前者训练的是策略本身(actor),而后者训练的是一种评判标准(critic)。critic能根据你输入的状态/动作,凭借策略π\piπ来输出对应的值函数。值函数有两种,一种是V(状态-值函数),一种是Q(状态-动作值函数),我们要讲的MC算法和TD算法是用来估计V值函数的。符号τ\tauτ:一轮游戏中的具体过程(tra原创 2020-07-13 09:17:19 · 1650 阅读 · 0 评论 -
3.Proximal Policy Optimization(PPO)+on/off policy
目录深度强化学习目录简介策略梯度(Policy Gradient)的缺点在于采样量大,且每一次更新参数都需要采样n轮,更新完又要去采样……换言之,对游戏数据的利用率很低,太慢了。这种采样-学习-采样的过程,是一种on-policy策略,接下来我们要将的PPO则不同,是一种off-policy的策略。On/Off PolicyOn Policy:训练同一个agent,同时还要求他去对环境进行交互。Off Policy:训练的是一个agent,实际和环境交互的是另一个agent。举个下棋的原创 2020-07-12 18:03:10 · 1231 阅读 · 3 评论 -
2.策略梯度(Policy Gradient)+Gradient Ascent
目录深度强化学习目录简介策略梯度,顾名思义,就是优化策略的梯度。我们之前讲了Policy-based和Value-based,而Policy-based方法就是直接训练策略的一组参数。如何训练?策略梯度就是一种方法。基本思路要训练一个Policy-based的方法,其实只需要三步。第一步,用一个神经网络作为策略自身,神经网络的参数为θ\thetaθ。第二步,设置一个Loss function,告诉神经网络什么样的策略是好的。第三步,得到最佳策略。符号τ\tauτ:一轮游戏中的具体过原创 2020-07-12 11:45:16 · 1948 阅读 · 0 评论 -
1.贝尔曼方程(Bellman equation)
目录深度强化学习目录简介贝尔曼方程,又叫动态规划方程,是以Richard Bellman命名的,表示动态规划问题中相邻状态关系的方程。某些决策问题可以按照时间或空间分成多个阶段,每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题,可以用动态规划方法求解。某一阶段最优决策的问题,通过贝尔曼方程转化为下一阶段最优决策的子问题,从而初始状态的最优决策可以由终状态的最优决策(一般易解)问题逐步迭代求解。存在某种形式的贝尔曼方程,是动态规划方法能得到最优解的必要条件。绝大多数可以用最优控制理论解决的问原创 2020-07-11 21:04:47 · 45989 阅读 · 5 评论 -
0.强化学习概述+policy based+value based
目录深度强化学习目录简述深度强化学习(Deep Reinforcement Learning)分为深度和强化两个部分。深度学习的好处是更深,更抽象的学习;而强化学习则是通过与环境产生互动来采取行动。下面主要对强化学习作出概述。强化学习强化学习主要由两个主体、四个部分组成。两个主体Agent:代理人,即采取行动的个体,如玩家。Environment:环境,能对行动产生反馈,如游戏规则。四个部分<A, S, R, P>Action space : A State spac原创 2020-07-11 15:03:57 · 6762 阅读 · 0 评论 -
深度强化学习目录
目录原创 2020-07-11 10:40:46 · 1152 阅读 · 0 评论