强化学习笔记(西湖大学课程)第二节

第一课 基本概念

  1. state:状态

  2. state space:状态空间(所有状态的集合)

  3. action:行动

  4. action space:行动空间(所有行动的集合)

  • 注意行动是和状态相对应的,行动是状态的函数

  1. state transition:状态转移(初始状态,动作,结束状态的表达式)会对应一个表格(表示确定性的情况)

  • 会涉及到条件概率,应用条件概率描述随机性问题

  1. policy:策略(在每一个状态下对应一个动作,所有状态动作对的集合即为策略)

  • 依照策略可以在状态之间形成路径,依旧是用条件概率表示全面的策略

  • 利用随机采样执行随机性概率

  1. reward:回报(有奖励性回报和惩罚性回报) 引导该怎么做不该怎么做 使用条件概率表示 依赖于当前的状态和动作

  • 更严谨的说法是,回报依赖于当前的状态和动作和下一状态,但是由于下一状态可以由当前状态和动作的条件概率来表示,因此可以将其以当前状态和动作来表示

  1. trajectory:轨迹:状态 动作 回报链(在一条链上的所有状态动作回报的集合)

  2. return:收益:一条链上的所有回报的总和(用来评估策略的优劣性)

  3. discounted return:折扣收益:针对每一步都附加一个学习率 折扣因子γ用来平衡长期和短期回报,折扣因子越小越注重当前近期回报,越大越注重长远回报

  4. episode:有终止状态的一条轨迹(还有持续性的轨迹,在到达目标点后仍然继续)(两者可以相互转化)(不将目标区别对待,更加一般化)

  • 在马尔科夫决策过程中正式定义有关概念

  • 几个集合

  1. STATE状态集合

  2. ACTION动作集合(动作集合依附于状态集合)

  3. REWARD回报集合(依附于状态、动作)

  • 概率分布

  1. 状态转移概率(当前状态、动作,到下一状态的概率为多少)

  2. 回报概率(当前状态、动作,获得回报的概率是多少)

  • 策略:在某一状态选择某一动作的概率即为策略

  • 马尔科夫性质:下一状态的概率仅取决于上一状态和动作的概率(无历史性)

  • 马尔科夫过程是确定性策略下的MDP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值