
强化学习
文章平均质量分 79
开心1002
喜欢java,python,学习DL,ML,RL中
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
白话文学强化学习-2
折扣率γ\gammaγ 书接上回,我们上次说到强化学习模型中最重要的SAR,今天我们要引入一个新的参数γ\gammaγ gamma 又叫discount,中文翻译折扣率。 之前说到强化学习的过程是由一个个SAR序列组成的,而强化学习的目标则是最大化R的总和也就是 Total Reward=R1 + R2 + R3 + … + Rn 但是Agent(就是我们训练的智能体也可以叫玩家)他每次其实比较关...原创 2018-11-20 22:09:23 · 354 阅读 · 0 评论 -
白话文学强化学习-0
白话文学强化学习-0 由于本人也还只是菜鸟,希望大佬轻喷~ 老古话说的好,温故而知新,决定把之前所学的感想记录下来, 便于之后的复习浏览。由于本人语文不行,加之机器学习领域专业术语太多,所以想到用大家都比较能懂的通俗的语言去解释下强化学习这个机器学习的子领域也是本人最喜欢最关注任务今后最有前途的学科~ ...原创 2018-11-16 21:58:02 · 733 阅读 · 0 评论 -
白话文学强化学习-1
强化学习介绍 强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。 强化学习用人话来解释的话,假设CV(计算机视觉)和NLP(自然语言处理)是教会计算机如何看和听这个世界的话,那RL(强化学习)则是教会计算机如何思考这个世界了。这里要拿出被举的最多的例子了: 巴甫洛夫的狗 强化学习的过程和训狗很像...原创 2018-11-16 22:46:20 · 722 阅读 · 0 评论 -
白话文学强化学习-3
马尔可夫决策模型 书接上回,上次说完了折扣率γ\gammaγ,最后的公式是 Gt=Rt+1+γRt+2+γ2Rt+3+...+γn−1RnG_t=R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... + \gamma^{n-1}R_nGt=Rt+1+γRt+2+γ2Rt+3+...+γn−1Rn 再整理下就是 Gt=∑k=1nγk−1RkG...原创 2018-11-21 15:37:29 · 385 阅读 · 0 评论