深度强化学习

  强化学习( Reinforcement Learning , RL ),也叫增强学习,是指一类从(与环境)交互中不断学习的问题以及解决这类问题的方法.

14.1 强化学习问题

14.1.1 强化学习定义

在强化学习中,有两个可以进行交互的对象:智能体和环境.

  1. 智能体( Agent )可以感知外界环境的状态( State )和反馈的奖励( Reward ),并进行学习和决策.智能体的决策功能是指根据外界环境的状态来做出不同的动作( Action ),而学习功能是指根据外界环境的奖励来调整策略.
  2. 环境( Environment )是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励.

强化学习的基本要素包括:

  1. 状态
  2. 动作
  3. 策略
    · 确定性策略
    · 随机性策略
  4. 状态转移概率
  5. 即时奖励

14.1.2 马尔可夫决策过程

  智能体从感知到的初始环境 s0 开始,然后决定做一个相应的动作 a0 ,环境相应地发生改变到新的状态 s1 ,并反馈给智能体一个即时奖励 r1 ,然后智能体又根据状态 s1做一个动作a1,环境相应改变为s2,并反馈奖励 r2 .这样的交互可以一直进行下去.

  智能体与环境的交互过程可以看作一个马尔可夫决策过程( Markov Deci-sion Process , MDP ).

  马尔可夫决策过程在马尔可夫过程中加入一个额外的变量:动作 a,下一个时刻的状态 st+1 不但和当前时刻的状态 st 相关,而且和动作 at 相关.

1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值