
强化学习
weixin_44196792
这个作者很懒,什么都没留下…
展开
-
Q-learning学习的一个小例子
强化学习的难点,在于其引入了时间这个维度,不管是有监督还是无监督学习,都是能获得即使反馈,但到了强化学习中,反馈来的没那么及时。在周志华的《机器学习》中,举过一个种西瓜的例子。种瓜有很多步骤,例如选种,浇水,施肥,除草,杀虫这么多操作之后最终才能收获西瓜。但是,我们只有等到西瓜收获之后,才知道种的瓜好不好,也就是说,我们在种瓜过程中执行的某个操作时,并不能立即获得这个操作能不能获得好瓜,仅能得到一...转载 2019-04-19 15:54:40 · 5551 阅读 · 1 评论 -
Q learning参数的理解与选取
1、epsilon greedy 算法Q: 如何理解 greed-epsilon 方法/如何设置 epsilon/如何理解 exploration & exploitation 权衡?A: (1) 我们的小车一开始接触到的 state 很少,并且如果小车按照已经学到的 qtable 执行,那么小车很有可能出错或者绕圈圈。同时我们希望小车一开始能随机的走一走,接触到更多的 state。...转载 2019-07-16 17:06:56 · 5276 阅读 · 1 评论