
DPG
Flanoc
退役oier
展开
-
【强化学习】SPG DPG DDPG(DPG3)
数学公式警告Policy GradientKaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲J(\pi_\theta)=&…ρπ(s′)=∫S∑t=1∞γt−1p1(s)p(s→s′,t,π)ds\rho^\pi(s') = \int_S \sum_{t=1}^ {\infty} \gamma^{t-1}p_1(s)p(s\to s',t,\pi)dsρπ(s′)=∫S∑t=1∞原创 2020-12-30 20:19:05 · 957 阅读 · 0 评论 -
【强化学习】DQN (DPG2)
DQN基础算法网络结构DQN与普通的Q-leaning的区别之一在于使用一个DCNN来近似Q(s,a),在论文中的一代目DQN中使用的是三个卷积层+两个全连接层经验重放另外一个区别在于利用了经验回放训练强化学习的学习过程,即一个经验池保存了(s,a,R,s′,done)(s,a,R,s',done)(s,a,R,s′,done)这一种五元组,之后训练时也从经验池中取出值进行训练。训练神经网络时,存在的假设是训练数据是独立同分布的,但是通过强化学习采集的数据之间存在着关联性,利用这些数据进行顺原创 2020-12-30 00:18:09 · 478 阅读 · 0 评论 -
【强化学习】部分基础知识(DPG 1)
MethodValue-Based(actor)step1: 将神经网络作为actorstep2: 衡量actor的好坏step3: 选择最好的actorPolicy-Based(Critic)Critic: 用来评估actorState value function(V): 在看到某一个状态state的时候预期能够得到的累积收益Estimation of V:Monte-Carlo(MC): critic会观察actor π\piπ 玩游戏的整个过程, 具有不确定性,较大的方差,但结果无原创 2020-12-28 23:22:57 · 1112 阅读 · 0 评论