
RL
荷西·H
你不知道这份散发臭味的代码经历了多少次需求变更。
展开
-
强化学习 目录
总结类强化学习小总结value-based 和 policy-based 算法区别算法类原创 2023-04-17 10:24:24 · 159 阅读 · 1 评论 -
mujoco(-py) & gym & spinningup
refermujoco-py1.5的branch注意,对应的python是3.5的 ,但是spinningup只支持3.6版本及以上的 TATgymmujoco-py还是得安装1.50的版本,2.0的不work原创 2020-05-27 00:50:49 · 1015 阅读 · 1 评论 -
ICLR'17 | PPO2 | Proximal policy optimization algorithms
文章目录referencereference原创 2020-01-12 11:20:03 · 280 阅读 · 0 评论 -
Dqn \ Nature15 \ Human-level control through deep reinforcement learning
文章目录原创 2020-01-12 11:05:33 · 266 阅读 · 0 评论 -
ICLR'16 | A2C | Asynchronous Methods for Deep Reinforcemeng Learning
文章目录abstractAsynchronous RL Frameworkasynchronous n-step Q-learningasynchronous advantage acother tricksoptimization优化算法expscalbility and data efficiencyRobutness and Stabilitycode trick总结conclusion ...原创 2020-01-11 23:06:20 · 536 阅读 · 0 评论 -
强化学习小总结
主要是参考https://blog.youkuaiyun.com/jinzhuojun/article/details/72851548value based和policy based的优缺点在RL任务中,我们本质上最终要学习的是策略(Policy)。前者用的是间接方法,即通过学习值函数(value function)或者动作值函数(action-value function)来得到policy。而后者...原创 2019-04-18 13:56:07 · 1241 阅读 · 0 评论 -
RL两大类算法的本质区别?(Policy Gradient 和 Q-Learning)
转载自 https://blog.youkuaiyun.com/zjucor/article/details/79200630Q-learning 是一种基于值函数估计的强化学习方法,Policy Gradient是一种策略搜索强化学习方法。两者是求解强化学习问题的不同方法,如果熟悉监督学习,前者可类比Naive Bayes——通过估计后验概率来得到预测,后者可类比SVM——不估计后验概率而直接优化学习目...转载 2019-03-30 00:03:47 · 1149 阅读 · 0 评论