4.1 随机策略与策略梯度
4.1.1 Value-based & Policy-based
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gEJ2WUNj-1593166266004)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623122051595.png)]](https://i-blog.csdnimg.cn/blog_migrate/b532fa6ebf36ca4595621c410580e541.png#pic_center)
常见的确定性策略有:Sarsa, Q-learning, DQN
常见的随机性策略有:Policy gradient

确定性策略优先优化Q网络,输出的是确定性的策略(结果)。
随机性策略输出的是不同动作的概率,在随机性的场景较为适用,比如小游戏剪刀石头布。
4.1.2 Softmax函数
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LgS9MGaL-1593166266008)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623145804421.png)]](https://i-blog.csdnimg.cn/blog_migrate/11b31deb8fd1eb667ffdfa3aaacba3bf.png#pic_center)
4.1.3 随机性策略举例
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Zo4HzecE-1593166266009)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623150042897.png)]](https://i-blog.csdnimg.cn/blog_migrate/4ce017190ddcb5e6483c1c32c5847359.png#pic_center)
> Episode(一轮)
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vfGVOOtF-1593166266010)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623150424414.png)]](https://i-blog.csdnimg.cn/blog_migrate/b0f742d19674512ba723101135f9dc50.png#pic_center)
4.1.4 轨迹Trajectory——每个episode都有一条轨迹
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rgpjhbeK-1593166266011)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623150658182.png)]](https://i-blog.csdnimg.cn/blog_migrate/5f09a9cd8b19b06d60a86ec65b8a81c0.png#pic_center)
Tip: 我们可以优化agent的选择,但不能控制环境的随机性。
4.1.5 期望回报——可通过采样n个episode来计算
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e8kQrQOc-1593166266012)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623155947688.png)]](https://i-blog.csdnimg.cn/blog_migrate/b5cd05f39c05eaf6b9b37e7f51e6580c.png#pic_center)
4.1.6 优化策略函数
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-97SZeqc9-1593166266013)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623154859057.png)]](https://i-blog.csdnimg.cn/blog_migrate/e467657f3baa8ff2d7fac63d3cc29aff.png#pic_center)
4.1.7 策略梯度——增大高分数的概率
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-irhrUfqq-1593166266013)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623155219378.png)]](https://i-blog.csdnimg.cn/blog_migrate/9ccee6455c326a08439b88e768bb7bf2.png#pic_center)
4.2 Policy Gradient算法
4.2.1 蒙特卡洛MC与时序差分TD
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-utSC8SQb-1593166266014)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623155706748.png)]](https://i-blog.csdnimg.cn/blog_migrate/c988f6b81a1adb3ca8dea3eed02a7f23.png#pic_center)
Gt 未来总收益之和
4.2.2 REINFORCE
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Uw9KgS05-1593166266015)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623160110376.png)]](https://i-blog.csdnimg.cn/blog_migrate/6d5894e2afbce3cbd8af9a1b41e7a368.png#pic_center)
公式推导补充
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AniqvEuT-1593166266016)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623160547132.png)]](https://i-blog.csdnimg.cn/blog_migrate/f5f83dcba2c5612cce84eb4972d1a63e.png#pic_center)
4.2.3 交叉熵——类比监督学习来理解Policy Gradient
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GwwWGqD7-1593166266017)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623160956093.png)]](https://i-blog.csdnimg.cn/blog_migrate/e4f4c6ea16d8c552dcc813ee28ee9eac.png#pic_center)
4.2.4 Policy Gradient
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vcFIJN3j-1593166266017)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623161246038.png)]](https://i-blog.csdnimg.cn/blog_migrate/82cc3980e698468e20e9cd6384dc1884.png#pic_center)
Loss构造分析
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T2nyvk27-1593166266018)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623162141285.png)]](https://i-blog.csdnimg.cn/blog_migrate/2b31324a96ef9350927eb16ef936e1cf.png#pic_center)
4.2.5 REINFORCE流程图
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ESdguRXI-1593166266019)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623162453378.png)]](https://i-blog.csdnimg.cn/blog_migrate/396f806bb30d4898855c72369d3e47d9.png#pic_center)
4.3 PARL Policy Gradient
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-79xXOYJQ-1593166266020)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623162722790.png)]](https://i-blog.csdnimg.cn/blog_migrate/9d95eccf8d537abe6bdcae6e157e61a2.png#pic_center)
4.3.1 PARL Policy Gradient——model
import parl
from parl import layers
class Model(parl.Model):
def __init__(self, act_dim):
act_dim

![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mXW4tswc-1593166266027)(/home/kevinpang/Documents/强化学习——学习笔记/Lesson4/image-20200623165515419.png)]](https://i-blog.csdnimg.cn/blog_migrate/53d37c0fbc87b94963205b521ce3d282.png#pic_center)
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



