深度强化学习
强化学习( Reinforcement Learning , RL ),也叫增强学习,是指一类从(与环境)交互中不断学习的问题以及解决这类问题的方法.
14.1 强化学习问题
14.1.1 强化学习定义
在强化学习中,有两个可以进行交互的对象:智能体和环境.
- 智能体( Agent )可以感知外界环境的状态( State )和反馈的奖励( Reward ),并进行学习和决策.智能体的决策功能是指根据外界环境的状态来做出不同的动作( Action ),而学习功能是指根据外界环境的奖励来调整策略.
- 环境( Environment )是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励.
强化学习的基本要素包括:
- 状态
- 动作
- 策略
· 确定性策略
· 随机性策略 - 状态转移概率
- 即时奖励
14.1.2 马尔可夫决策过程
智能体从感知到的初始环境 s0 开始,然后决定做一个相应的动作 a0 ,环境相应地发生改变到新的状态 s1 ,并反馈给智能体一个即时奖励 r1 ,然后智能体又根据状态 s1做一个动作a1,环境相应改变为s2,并反馈奖励 r2 .这样的交互可以一直进行下去.
智能体与环境的交互过程可以看作一个马尔可夫决策过程( Markov Deci-sion Process , MDP ).
马尔可夫决策过程在马尔可夫过程中加入一个额外的变量:动作 a,下一个时刻的状态 st+1 不但和当前时刻的状态 st 相关,而且和动作 at 相关.