理论知识
笔记和知识整理
qqqeeevvv
研一学生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【李宏毅深度强化学习笔记】8、Imitation Learning
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-30 18:18:16 · 5047 阅读 · 5 评论 -
【李宏毅深度强化学习笔记】7、Sparse Reward
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-29 14:25:31 · 3368 阅读 · 1 评论 -
【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-28 16:43:36 · 8356 阅读 · 3 评论 -
【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (N...原创 2020-01-26 00:53:56 · 5951 阅读 · 10 评论 -
【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法(本文)【李宏毅深度强化学习笔记】5、Q-learning用于连续动...原创 2020-01-21 01:08:46 · 6172 阅读 · 1 评论 -
【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)(本文)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动...原创 2020-01-20 01:41:37 · 10620 阅读 · 5 评论 -
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)(本文)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于...原创 2020-01-17 17:55:57 · 22784 阅读 · 29 评论 -
【李宏毅深度强化学习笔记】2、Proximal Policy Optimization算法(PPO)
【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法(本文)【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法【李宏毅深度强化学习笔记】5、Q-learning用于连续动...原创 2020-01-15 15:00:01 · 14433 阅读 · 19 评论
分享