强化学习原理二 BasicConcepts

  • 状态,State
    • 状态空间,State Space
  • 行动,Action
  • 状态转换,state transition
  • 策略,Policy
    • 用数组或者矩阵表示这样一个策略
  • 奖励,Reward
    • 不确定的话,表格就不适用了。这个时候就要用数学来表示:p(r=-1|s1,a1)=1 and p(r!=-1|s1,a1)=0
  • 轨迹,Trajectory A Trajectory is a state-action-reward chain.
    • 返回,return 可以用来评估一个策略好还是坏
    • discount rate
    • discounted return
  • Episode
    • terminal states
  • MDP Markov  Decision Process
    • Sets
      • State
      • Action
      • Reward
    • Policy
    • Probablity distribute
    • Markov property
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值