
强化学习
枫^.^
这个作者很懒,什么都没留下…
展开
-
强化学习的方法总结与分类
强化学习中有多种不同的方法,比如说比较知名的控制方法 Q learning,Policy Gradients,还有基于对环境的理解的 model-based RL 等等。了解强化学习中常用到的几种方法,以及他们的区别, 对我们根据特定问题选择方法时很有帮助。接下来我们通过分类的方式来了解他们的区别。 第一种分类方法可分为不理解环境(Model-Free RL)和理...原创 2018-07-24 17:03:45 · 6599 阅读 · 2 评论 -
python编写环境过程中print('\r{}'.format(interaction), end='')出错
在跑python编程的增强学习代码时其编写环境中print('\r{}'.format(interaction), end='')代码出现 print('\r{}'.format(interaction), end='') ^SyntaxError: invalid syntax错误,找了很多方法最终解决...原创 2018-07-26 11:21:26 · 3677 阅读 · 2 评论 -
Q-Learning整体算法
伪代码如下:Initialize Q(s,a) arbitrarilyRepeat (for each episode): Initialize s Repeat (for each step of episode): Choose a from s using policy derived from Q (e.g.,-greedy) ...原创 2018-08-22 21:10:00 · 1033 阅读 · 0 评论 -
Sarsa
Sarsa的决策部分与Q-Learning一样,使用Q表形式,挑选值较大的动作施加在环境中来换取奖惩,但sarsa的更新方式不同。其更新准则如下: 同样, 在 时挑选一个带来最大潜在奖励的动作 a2继续写作业状态 s2。 此时, 如果是 Q learning, 首先会观看一下在 s2 上选取哪一个动作会带来最大的奖励, 但是在真正要做决定时, 却不一定会选取到那个带来最大奖励的动作, ...原创 2018-08-27 10:31:18 · 865 阅读 · 0 评论