
强化学习
文章平均质量分 61
笔记
ggjkd
这个作者很懒,什么都没留下…
展开
-
DDPG策略更新细节解释
DDPG算法原理DDPG采用了AC框架,与普通AC不同的是,DDPG的actor采用的是确定性策略梯度下降法得出确定的行为,而不是行为概率分布,而critic则引用了DQN的经历回放策略,使RL学习收敛更快。DDPG的组成离线策略学习,与DQN类似,有target网络(拷贝),则actor和critic共4个网络:critic_target_netcritic_eval_netactor_target_netactor_eval_net1) critic_eval_net参数更新依据TD_原创 2021-04-01 16:03:42 · 4873 阅读 · 0 评论 -
A3C算法详解:步骤解释、TDerror演算
一、A3C算法详解二、关于TD_error的计算二、关于行为选择注:转载请注明原创 2021-03-23 17:25:39 · 4744 阅读 · 0 评论 -
强化学习:关于随机策略梯度法中的损失定义
还是采用神经网络用于状态和行为概率的非线性拟合1、随机策略梯度算法回顾如上图,迭代公式定义为新=旧+alpha*吃惊程度。所谓的吃惊程度是指,根据当前策略依概率选择了一个行为,虽然这个行为概率较小,但”-log"之后很大,这时候反馈回了一个奖励vt,表明这个小概率行为让决策人很吃惊,接下来要大改参数。2、如何定义神经网络损失已知策略梯度法不是依赖损失来反馈修改参数,但神经网络迭代依赖的就是损失,那么如何定义策略梯度的“损失”。将问题转换为分类问题:已经获得了一整条轨迹(s1,a1,r2,s2,原创 2021-03-18 19:51:06 · 408 阅读 · 0 评论 -
DQN算法&流程图&代码实现(Tensorflow2.x / Keras)
一、 DQN算法&流程图1) 简介DQN全名Deep Q Network。对于离散状态空间,若智能体所处的状态成千上万,仅用表格法将状态行为对存储很不实际,例如Qlearning;对于连续状态空间企图用表格法储存更是不可能。所以才需要对值函数进行逼近,以线性或非线性的函数来完成(Q,a) = f(s,theta)的映射,并将值函数的改进变成逼近函数参数的改进,这个过程就像Q值查表一样,根据当前状态直接根据函数计算出各状态对应的Q值,再根据目标策略值函数与行为策略值函数差去更新逼近函数的参数。线性原创 2021-03-14 21:00:28 · 12476 阅读 · 2 评论 -
时序差分算法:Sarsa&Qlearning
一、 时序差分法通过学习后继状态s’的值函数来逼近当前状态值函数,实现对不完整轨迹的学习(因为仅估计后继状态s’)。V(st)=V(st)+α(Rt+1+γV(st+1)−V(st))V\left(s_{t}\right)=V\left(s_{t}\right)+\alpha\left(R_{t+1}+\gamma V\left(s_{t+1}\right)-V\left(s_{t}\right)\right)V(st)=V(st)+α(Rt+1+γV(st+1)−V(st))和MC相似原创 2021-03-12 15:52:11 · 591 阅读 · 0 评论 -
无模型策略评估:蒙特卡洛(MC)方法估计
无模型策略评估:蒙特卡洛(MC)方法估计一、 蒙特卡洛(MC)方法可以解决什么强化学习问题MC基于统计(大数)原理,可解决无模型的强化学习问题。核心思想为:智能体不断与环境交互,产生一系列历史轨迹(s,a,r,…,s,a,r,从开始到结束),通过索引历史轨迹中具体某个状态、行为下的累计回报G,并用他们的均值来估计这个状态、行为的值函数。二、 MC增量更新值函数的算法1、 MC一般更新算法根据核心思想:图中V(s)亦可为Q(s,a);一般情况下,都是估计Q(s,a),因为根据贝尔曼最优,它可以直原创 2021-03-10 19:30:49 · 1185 阅读 · 0 评论 -
动态规划求解MDP(基于贝尔曼方程)
动态规划求解MDP(基于贝尔曼方程)一、策略迭代法1. 策略评估基于贝尔曼方程的动态规划迭代:基本思想:在当前策略Pi下,初始化值函数V0,用当前策略和前Vk来更新Vk+1,直至Vk+1收敛2. 策略改进a−new=argmaxaQπ(s,a)a_{-} n e w=\arg \max _{a} Q_{\pi}(s, a)a−new=argamaxQπ(s,a)基于贪心法来优化策略,即把有最大回报的行为来更新对应的策略Pi(a|s),当然,因为是贪心策略,概率为1,有些时候回原创 2021-03-10 11:55:58 · 1103 阅读 · 0 评论 -
马尔可夫决策和贝尔曼方程
马尔可夫决策和贝尔曼方程一、什么是马尔可夫性、马尔可夫过程和马尔可夫决策过程1) 马尔可夫性是指当前状态s包含了过去所有的历史信息,由当前决定未来;2) 马尔可夫过程,就是具有马尔可夫性的随机过程(通常由链表示,也叫马尔科夫链),仅包含状态、状态到状态的转移概率;3) 马尔可夫决策过程,是根据马尔可夫过程按照策略做出决策,由(S\A\R\P\gama)组成;二、对于一个马尔可夫决策过程,R有限时,状态转移函数和回报函数1) 状态转移函数`PI(a|s)表示在当前状态s下,采取动作a的概率,也原创 2021-03-08 20:47:07 · 779 阅读 · 0 评论