
DRL
文章平均质量分 54
Coop_Multi-Agent_DRL
The whole world can be modeled as multi-agent
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DRL学习资源
文章目录李宏毅笔记DDPG 李宏毅笔记 drl课程完整笔记 DDPG DDPG理论推导原创 2021-01-26 17:02:06 · 245 阅读 · 0 评论 -
Actor-Critic
文章目录Critic(通过学习使得自己估值越来越准确) Critic(通过学习使得自己估值越来越准确)原创 2021-01-19 21:34:45 · 185 阅读 · 0 评论 -
DQN and variant
文章目录1. Q-learning 1. Q-learning an algorithm which produces a Q-table that an agent uses to find the best action to take given a state.原创 2021-01-09 14:43:44 · 349 阅读 · 0 评论 -
Deep Deterministic Policy Gradient
文章目录参考的大佬们numpyReplayBuffer 参考的大佬们 很详细的参考 numpy print(np.random.normal(size=6)) # 默认标准正态分布 μ=0, σ=1, shape = 6 [ 1.18306191 0.42100423 1.40213637 -0.17240589 0.02877852 -1.5534178 ] ReplayBuffer self.mem_cntr = 0 # the last memory index you store .原创 2020-05-28 16:27:16 · 290 阅读 · 0 评论 -
Mit self-driving
文章目录actions(not the reword)grid system前车与后车, 和自己的距离 actions(not the reword) grid system 前车与后车, 和自己的距离 前车是三个格子原创 2020-05-04 23:28:26 · 197 阅读 · 0 评论 -
Common Sense
文章目录Imitation Learning Imitation Learning 训练采用了imitation learning,这也是目前的主流吧,在这种FPS复杂环境下,高纬度的state and action space,维度灾难是显而易见的,所以他们先让Agent观看人类玩家30分钟的游戏操作之后,再开始训练,加快了policy的训练和收敛速度。 ...原创 2020-04-30 10:39:06 · 160 阅读 · 0 评论 -
A3C
文章目录Advantage func(how good a given action is compared to the average.) Advantage func(how good a given action is compared to the average.) Can be thought of as a measure of how good a given action ...原创 2019-11-06 08:43:27 · 383 阅读 · 0 评论