
强化学习基础
文章平均质量分 91
记录强化学习基础知识
sunshinecxm_BJTU
这个作者很懒,什么都没留下…
展开
-
深度强化学习笔记(三)表格型的方法
表格型的方法Tabular Methods本章我们通过最简单的表格型的方法(tabular methods)来讲解如何使用 value-based 方法去求解强化学习。MDP强化学习的三个重要的要素:状态、动作和奖励。强化学习智能体跟环境是一步一步交互的,就是我先观察一下状态,然后再输入动作。再观察一下状态,再输出动作,拿到这些 reward 。它是一个跟时间相关的序列决策的问题。举个例子,在 t-1时刻,我看到了熊对我招手,那我下意识的可能输出的动作就是赶紧跑路。熊看到了有人跑了,可能就觉得发现转载 2021-04-24 21:16:50 · 535 阅读 · 0 评论 -
深度强化学习笔记(二)马尔可夫决策过程
马尔可夫决策过程上图介绍了在强化学习里面 agent 跟 environment 之间的交互,agent 在得到环境的状态过后,它会采取动作,它会把这个采取的动作返还给环境。环境在得到 agent 的动作过后,它会进入下一个状态,把下一个状态传回 agent。在强化学习中,agent 跟环境就是这样进行交互的,这个交互过程是可以通过马尔可夫决策过程来表示的,所以马尔可夫决策过程是强化学习里面的一个基本框架。在马尔可夫决策过程中(Markov Decision Process,MDP),它的环境是全部可转载 2021-04-23 09:28:46 · 1611 阅读 · 0 评论 -
深度强化学习笔记(一)强化学习概述
地址:https://datawhalechina.github.io/easy-rl/1.强化学习概述强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。示意图由两部分组成:agent 和 environment。在强化学习过程中,agent 跟 environment 一直在交互。Agent 在环境里面获取到状态,agent会利用这个状态输出一个动作(action),一个决策。然后这个决策会放到环境之中去,环境会根据转载 2021-04-14 15:09:52 · 866 阅读 · 0 评论