
深度强化学习
文章平均质量分 73
Warship_
这个作者很懒,什么都没留下…
展开
-
深度强化学习:PPO + AI2THOR问题总结
一、PPO代码选用的是如下repo中的PPO代码:https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/tree/master/contents/二、网络结构1.网络变量项目中的网络输入针对的是向量,但AI2THOR环境下的观测状态及神经网络需要的输入是一个三维张量,因此需要修改项目中的网路结构,S为[None, 84, 84, 3],Q_tar为[None, 1],Q_eval为[None, 1],pi原创 2021-01-27 16:43:16 · 948 阅读 · 0 评论 -
深度强化学习:(七)PPO
一、PPO原创 2021-01-27 16:42:23 · 1559 阅读 · 0 评论 -
深度强化学习:(六)DDPG
一、Deep Deterministic Policy Gradient原创 2021-01-27 16:42:12 · 318 阅读 · 0 评论 -
深度强化学习:(一)马尔科夫决策过程
一、马尔科夫决策过程原创 2021-01-27 16:40:23 · 930 阅读 · 0 评论 -
深度强化学习:(五)Actor Critic
一、Actor Critic算法原创 2021-01-27 16:41:57 · 408 阅读 · 0 评论 -
深度强化学习:(四)Policy Gradient
1、Policy Gradient算法原创 2021-01-27 16:41:45 · 273 阅读 · 0 评论 -
深度强化学习:(三)DQN
1、DQN算法原创 2021-01-27 16:41:31 · 361 阅读 · 0 评论 -
深度强化学习:(二)Q-learning(off-policy) 和 Sarsa(on-policy)比较
一、Q-learning1.Q-learning算法2.Q-learning 动作策略——E-greedy3.Q-learning评估策略——greedy不需要用到a’,直接取Q表中s’所对应q值最大的二、Sarsa1.Sarsa算法2.Sarsa 动作策略——E-greedy3.Sarsa评估策略——E-greedy在s’下,根...原创 2021-01-27 16:41:10 · 1060 阅读 · 0 评论 -
深度强化学习:Unreal + AI2-THOR问题总结
1.multiprocessing多进程Pipe进程间通信https://blog.youkuaiyun.com/brucewong0516/article/details/857960732.INVALIDARGUMENTERROR (SEE ABOVE FOR TRACEBACK): ASSIGN REQUIRES SHAPES OF BOTH TENSORS TO MATCH. LHS SHAP...原创 2021-01-27 16:39:23 · 1520 阅读 · 0 评论