
深度强化学习
greyduan
莫道君行早,更有早行人!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【深度强化学习 三】Actor-Critic及衍生算法简介(李宏毅老师学习视频笔记)
Actor-Critic算法简介这是一种policy based和value based方法的结合。首先复习一下加了discount和baseline的policy gradient算法:∇Rˉθ≈1N∑n=1N∑t=1Tn(∑t′=tTnγt′−trt′n−b)∇logpθ(atn∣stn)\nabla \bar{R}_{\theta} \approx \frac{1}{N} \sum_...原创 2020-03-18 15:53:34 · 444 阅读 · 0 评论 -
【深度强化学习 二】Q-Learning小技巧(2)(李宏毅老师学习视频笔记)
首先放视频地址李宏毅老师深度强化学习视频上一篇初识Q-Learning讲了一些基础知识,本篇记录一下Q-Learning的一些改进Double DQN在DQN中,Q值总是会被高估,因为Q(st,at)Q\left(s_{t}, a_{t}\right)Q(st,at)的target是 rt+maxaQ(st+1,a)r_{t}+\max _{a} Q\left(s_{t+1}, a\r...原创 2020-03-16 16:42:04 · 253 阅读 · 0 评论 -
【深度强化学习 一】Q-Learning初识(1)(李宏毅老师学习视频笔记)
首先放视频链接:李宏毅老师深度强化学习课程——Q-LearningQ-Learning简介Q-Learning是一种value-based的方法,在这种方法中,不是直接学习policy,而是利用值函数评价现在行为的好坏,即AC算法中的critic。比如state value function,表示在当前策略下,到了某一状态s,之后能获得的累计收益。...原创 2020-03-16 13:53:23 · 513 阅读 · 0 评论