强化学习笔记1-有限马尔可夫决策过程

这个系列的笔记打算写的是看了david silver的视频和sutton的introduction to rl(前几章)后的摘要,大概就是我觉得重要的东西。

我发现david silver的视频和introduction在大纲内容上是非常相似的,具体细节上,David silver的视频更强调实用,会有一些比较新的内容,sutton的书更理论,有助于完整地理解强化学习的本质。

这个笔记的内容不一定对,有些纯属个人瞎掰。另外由于本人是做无人机控制的,所以学习强化学习的过程中会比较关注控制相关的内容。

这次的笔记主要介绍强化学习的对象模型、重要的概念定义,一言以蔽之就是建模。

强化学习的“智能体”-“环境”结构

主要概念

强化学习研究的问题是智能体(agent)环境(environment)中进行一系列动作(action),然后如何通过环境反馈给智能体的状态(state)和奖励(reward)来不断提升自身的策略(policy)的问题。示意图如下:
rl0-interface

这里面包含几个概念定义:

  • 智能体(Agent):也可以叫做学习者,决策者,我们设计的强化学习算法的载体。

  • 环境(Environment):外部的可以给智能体反馈信息的一切物体都可以成为环境,这里的外部不是以物理边界作为区分,比如机器人上的传感器是可以给智能体反馈状态信息的,所以传感器属于“环境”的一部分。

  • 时间序列:这里假设智能体从环境采集信息以及改变动作都只能在一个离散的时刻序列上进行,表示为t=0,1,2,3,…,t=0,1,2,3,\dots,t=0,1,2,3,,

  • 状态(State):状态是一个表示能够表征整个系统(包括智能体、环境的动力学)所有信息的向量,比如小车的位置、速度、方向,锅炉的温度、气压。实际一般通过传感器来收集系统状态,因此往往只能得到系统的一部分状态,而非所有的状态,这个过程成为观测(Observe)。但是,为了方便前面的原理描述,往往假设可以拿到系统的完整状态。系统状态在
    ttt 时刻的状态简写为 StS_tSt

  • 动作(Action):动作是智能体能够进行的能影响环境的行为,比如输出电压改变锅炉温度,输出推力改变小车位置,系统状态在ttt 时刻的状态简写为 AtA_tAt

  • 奖励(Reward):奖励是一个标量,智能体完成一个动作后,环境就会给智能体下一时刻的状态st+1s_{t+1}st+1和奖励rtr_trt,奖励是环境告诉智能体的对当前状态或者状态和动作的评价,这个评价一般是暂时的、粗糙的,比如下棋,在未分出胜负的步骤评价是0,输了的步骤评价为-1,赢了的步骤评价为+1。

有限马尔可夫决策过程

马尔可夫性

马尔可夫性是描述的是一个系统的未来的状态St+1S_{t+1}St+1只依赖当前状态StS_tSt而非过去的所有状态S0,S1,S2,…S_0,S_1,S_2,\dotsS0,S1,S2,,简单的说就是,根据系统的当前状态,当前动作,系统的动力学,就可以推算下一时刻的状态。用数学的语言来描述就是:

P[St+1∣St]=P[St+1∣S1,…,St] P[S_{t+1} | S_t]=P[S_{t+1} | S_1,\dots,S_t] P[St+1St]=P[St+1S1,,St]

大部分的控制系统的状态都有马尔可夫性。强化学习一般假设研究的对象的状态具有马尔可夫性,那么一个片段的强化学习信息序列(轨迹)可以表述为:

S0,A0,R1,S1,A1,S2,…,St,At,Rt+1,St+1 S_0,A_0,R_1,S_1,A_1,S_2,\dots,S_t,A_t,R_{t+1},S_{t+1} S0,A0,R1,S1,A1,S2,,St,At,Rt+1,S

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值