
深度强化学习
zbrwhut
这个作者很懒,什么都没留下…
展开
-
在DQN代码中关于tf.stop_gradient的认识
记录一下今天遇到的这个问题,方便以后反过头来继续查阅。在学习莫烦python强化学习中DQN这一节时,莫烦大佬给出了两种DQN代码,大致框架都是一致的,但是仔细一读就会发现在DQN_modified.py文件中对于target_net训练出的结果直接加入到loss值的计算,而RL_brain.py中单独添加了placeholder,将target_net的结果通过placeholder传入ev...原创 2018-10-24 15:28:09 · 1687 阅读 · 0 评论 -
【转载】探秘多智能体强化学习-MADDPG算法原理及简单实现
&n...转载 2019-04-06 23:35:26 · 2554 阅读 · 0 评论 -
探秘多智能体强化学习-MADDPG算法原理及简单实现
之前接触的强化学习算法都是单个智能体的强化学习算法,但是也有很多重要的应用场景牵涉到多个智能体之间的交互,比如说,多个机器人的控制,语言的交流,多玩家的游戏等等。本文,就带你简单了解一下Open-AI的MADDPG(Multi-Agent Deep Deterministic Poli...转载 2019-04-15 15:01:09 · 7906 阅读 · 3 评论