
RL
Coop_Multi-Agent_DRL
The whole world can be modeled as multi-agent
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
What works for RL
文章目录在稳定的环境下(如近封闭环境的物流)在稳定的环境下(如近封闭环境的物流)原创 2020-06-08 21:19:24 · 136 阅读 · 0 评论 -
Value-Based
文章目录蒙特卡洛(监督学习方法)TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾Q value蒙特卡洛(监督学习方法)让 VπV^πVπ无限接近GaG_aGa(也就是∑t=1nrt\sum_{t=1}^{n}r^t∑t=1nrt)TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾losslossloss = Vπ(St)−Vπ(St+1)V^π(S_t)-V^π(S_{t+1})Vπ(St)−Vπ(St+1)Q value...原创 2020-05-12 22:33:26 · 281 阅读 · 0 评论 -
Policy_Based
pick the best actorI’m showing log probabilities (-1.2, -0.36) for UP and DOWN instead of the raw probabilities (30% and 70% in this case) because we always optimize the log probability of the correct label (this makes math nicer, and is equivale...原创 2020-05-10 11:33:42 · 174 阅读 · 0 评论 -
Hierarchy_RL
文章目录老师设置目标, 学生去完成它老师设置目标, 学生去完成它原创 2019-11-18 20:33:45 · 241 阅读 · 0 评论 -
RL
文章目录0 术语0.0 马尔科夫过程0.1 模型无关0 术语0.0 马尔科夫过程0.1 模型无关原创 2019-11-14 20:19:28 · 601 阅读 · 1 评论 -
Concise_DQN(后期加上改进DDQN)
文章目录1 图解 Loss1 图解 Loss参考文献原创 2019-07-17 11:25:23 · 713 阅读 · 0 评论