
强化学习
hinanmu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
李宏毅深度强化学习笔记(一)Policy Gradient
李宏毅深度强化学习笔记(一) 参考jessie_weiqing博客:https://blog.youkuaiyun.com/cindy_1102/article/details/87905272 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 Policy Gradient 术语和基本思想 基本组成: actor (即policy gradie...转载 2019-07-13 11:06:32 · 1138 阅读 · 0 评论 -
李宏毅深度强化学习笔记(二)Proximal Policy Optimization
李宏毅深度强化学习笔记(二)Proximal Policy Optimization 参考jessie_weiqing博客:https://blog.youkuaiyun.com/cindy_1102/article/details/87905272 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 Proximal Policy Optimiza...转载 2019-07-13 17:11:09 · 485 阅读 · 0 评论 -
李宏毅深度强化学习笔记(三)Q-learning(basic idea)
李宏毅深度强化学习笔记(三)Q-learning(basic idea) 参考jessie_weiqing博客:https://blog.youkuaiyun.com/cindy_1102/article/details/87905272 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 Q-Learning介绍 基本思想 Q-learning – v...转载 2019-07-15 14:57:28 · 353 阅读 · 0 评论 -
李宏毅深度强化学习笔记(四)Q-learning(Advanced Tips)
参考jessie_weiqing博客:https://blog.youkuaiyun.com/cindy_1102/article/details/87907470 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 李宏毅深度强化学习笔记(四)Q-learning(Advanced Tips) Double DQN 由于Q值总是基于使得Q最大的acti...转载 2019-07-15 19:06:06 · 936 阅读 · 2 评论 -
李宏毅深度强化学习笔记(五)Q-learning(Continuous Action)
参考jessie_weiqing博客:https://blog.youkuaiyun.com/cindy_1102/article/details/87907470 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 李宏毅深度强化学习笔记(五)Q-learning(Continuous Action) 连续行动下的 Q-Learning 连续行动:...转载 2019-07-15 19:10:01 · 704 阅读 · 0 评论 -
李宏毅深度强化学习笔记(七)Sparse Reward
参考jessie_weiqing博客:https://blog.youkuaiyun.com/cindy_1102/article/details/87990012 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 李宏毅深度强化学习笔记(七)Sparse Reward Reward Shaping 当reward的分布非常分散时,对于机器而言学习...转载 2019-07-23 16:00:59 · 602 阅读 · 0 评论 -
李宏毅深度强化学习笔记(八)Imitation Learning
参考jessie_weiqing博客:https://blog.youkuaiyun.com/cindy_1102/article/details/88051963 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 李宏毅深度强化学习笔记(八)Imitation Learning 为什么要模仿学习 Imitation Learning (也称为 l...转载 2019-07-23 16:47:35 · 1006 阅读 · 0 评论 -
李宏毅深度强化学习笔记(六)Actor-Critic
参考jessie_weiqing博客:https://blog.youkuaiyun.com/cindy_1102/article/details/87988606 李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071 Asynchronous Advantage Actor-Critic (A3C) 回顾 – Policy Gradient 先对po...转载 2019-07-16 17:24:22 · 1160 阅读 · 0 评论