第一课 基本概念
-
state:状态
-
state space:状态空间(所有状态的集合)
-
action:行动
-
action space:行动空间(所有行动的集合)
-
注意行动是和状态相对应的,行动是状态的函数
-
state transition:状态转移(初始状态,动作,结束状态的表达式)会对应一个表格(表示确定性的情况)
-
会涉及到条件概率,应用条件概率描述随机性问题
-
policy:策略(在每一个状态下对应一个动作,所有状态动作对的集合即为策略)
-
依照策略可以在状态之间形成路径,依旧是用条件概率表示全面的策略
-
利用随机采样执行随机性概率
-
reward:回报(有奖励性回报和惩罚性回报) 引导该怎么做不该怎么做 使用条件概率表示 依赖于当前的状态和动作
-
更严谨的说法是,回报依赖于当前的状态和动作和下一状态,但是由于下一状态可以由当前状态和动作的条件概率来表示,因此可以将其以当前状态和动作来表示
-
trajectory:轨迹:状态 动作 回报链(在一条链上的所有状态动作回报的集合)
-
return:收益:一条链上的所有回报的总和(用来评估策略的优劣性)
-
discounted return:折扣收益:针对每一步都附加一个学习率 折扣因子γ用来平衡长期和短期回报,折扣因子越小越注重当前近期回报,越大越注重长远回报
-
episode:有终止状态的一条轨迹(还有持续性的轨迹,在到达目标点后仍然继续)(两者可以相互转化)(不将目标区别对待,更加一般化)
-
在马尔科夫决策过程中正式定义有关概念
-
几个集合
-
STATE状态集合
-
ACTION动作集合(动作集合依附于状态集合)
-
REWARD回报集合(依附于状态、动作)
-
概率分布
-
状态转移概率(当前状态、动作,到下一状态的概率为多少)
-
回报概率(当前状态、动作,获得回报的概率是多少)
-
策略:在某一状态选择某一动作的概率即为策略
-
马尔科夫性质:下一状态的概率仅取决于上一状态和动作的概率(无历史性)
-
马尔科夫过程是确定性策略下的MDP