Reinforcement Learning:An introduction读书笔记-Chapter 3

本文探讨了有限马尔科夫决策过程(MDP)的基本概念,包括环境与智能体的交互界面、目标与奖励设置原则、回报计算方法,并介绍了状态与动作价值函数的概念及其重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Chapter 3 Finite Markov Decision Processes

3.1 The Agent-Environment Interface


在每一步t,agent都会接收到环境的state,StS,在此基础上选择一个action,AtA(St),即在state S下所有可选的action。在下一步中,agent收到了reward(reward是在agent之外的),Rt+1,并且发现自己在一个新的state,St+1

在每一步agent都会有一个关于states到选择某个action可能性的映射,这就是policy,πt(a|s)即为在state s 时选择action a的可能性。

所有不能被agent直接改变的就是environment,agent-environment的界限是绝对控制而不是是否能得到完整的信息。

3.2 Goals and Rewards

选取reward时必须满足agent让reward最大化同时也能达成我们设定的目标。告知它你想达到的目标是什么,而不是如何达到这个目标。比如在围棋中,我们应将赢得棋局的reward设置为+1,而不是吃到敌方棋子作为+1,否则agent可能会以输掉棋局的代价吃到更多敌方棋子。

我们将reward定义在agent之外并不妨碍有些agent拥有内在的reward(internal rewards)

3.3 Returns

return Gt是关于reward序列的某一个函数。
episodic tasks:agent-environment交互可以很自然的被分成称为episodes的子序列的tasks。S+用来表示terminal state。在这种情况下其return一般定义如下(T即terminal state):

GtRt+1+Rt+2+Rt+3+...+RT

continuing tasks:在很多情况下agent-environment交互不能被很自然的分成定义好的episodes,而是无限制的一直连续下去,或者要持续很长时间。return的一般定义如下:
GtRt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1

其中0γ1,被称为discount rate。如果γ<1,只要Rk是有界的,那么无限的加和式是有限的值,当γ=0说明其只看重即时的reward,γ越靠近1说明其将未来的reward看的越重。

3.4 Unified Notation for Episodic and Continuing Tasks

St,i:在第i个episode,t时间节点时的state,action,reward,policy等可以此类推
为了让episodic task和continuing task可以一同表示,我们将episode 的结束看作是一个特殊的state,absorbing state,在这个state它只会从该状态转化为自己本身,reward为0。

就像上图所示,整个reward sequence就可以看成+1,+1,+1,0,0,…就转化成了一个无限的序列。这样一来无论是episodic task还是continuing task的return就可以统一定义成下式,只是涵盖了γ=1T=的可能性(两个可能性不能同时满足,在第十章会引入共存的情况。)

Gtk=0Tt1γkRt+k+1

3.5 The Markov Property

Markov property:
一般情况下在t+1时environment做出的对于在t时action的回应是由之前所有发生过的事情决定的,可以用下式表示。

Pr{St+1=s,Rt+1=r|S0,A0,R1,...,St1,At1,Rt,St,At}

如果一个state signal有Markov property,t+1时刻environment做出的回应值决定于t时的state和action,可用下式表示:
p(s,r|s,a)PrSt+1=s,Rt+1=r|St=s,At=a

换句话说,一个state signal有Markov property并是Markov state当且仅当对所有s,r及所有历史state和action而言第一个式子都是等于p(s,r|St,At)的。在这种情况下environment和task本身都满足Markov property。

如果一个environment满足Markov property,只要给出现在的state和action就可以预测出下一个state和期望得到的reward。只要不断的重复这个过程,就可以推测出未来所有的state和期望得到的reward,其效果和知道所有到目前为止完整的历史state与action一样。也就是说一个关于Markov state的最优policy函数是与关于所有历史信息的最优policy函数一样可靠的。
就算一个state不是完全符合Markov的,但我们可以把它想做一个接近markov的状态。

3.6 Markov Decision Processes

一个满足markov性质的增强学习task叫做markov decison process或者MDP,如果state和action的空间都是有限的就叫做有限MDP。
一个典型的有限MDP,是由state和action集以及每一步环境的动态变化定义的。只要给出state s和action a,以及所有下一个可能成为的state和获得的reward,就可以计算出所有关于环境的信息,比如state action对的期望reward、state的转化概率、满足state-action-next-state的三元组的reward的数学期望等。finit MDP可以写做可以写做

p(s,r|s,a)Pr{St+1=s,Rt+1=r|St=s,At=a}

state-action对的期望reward则可以写做
r(s,a)E[Rt+1|St=s,At=a]=rRrsSp(s,r|s,a)

state的转化概率可以写做
p(s|s,a)Pr{St+1=s|St=s,At=a}=rRp(s,r|s,a)

满足state-action-next-state的三元组的reward的数学期望可以写成
r(s,a,s)E[Rt+1|St=t,At=a,St+1=s]=rRrp(s,r|s,a)p(s|s,a)

事实上就是在St=s,At=a,St+1=s的情况下reward的数学期望,每个reward占到的概率是p(s,r|s,a)p(s|s,a)

在transition graph中有state nodes和action nodes,一个action node对应的所有的转化概率加起来为1,下图是一个transition graph,大的圆(里面写着low 和 high的)是state nodes,小的实心的是action node。每个箭头上前面那个数字是转化的概率,后面那个数字是对应三元组的reward的期望。

Value Function

value function是一个评估某个state的好坏,或者是在某个state采取某个action的好坏。这里的好坏指的是可以期望的未来的reward。
vπ(s) 表示的是state s在 policy π条件下的value。

vπ(s)Eπ[Gt|St=s]=Eπ[k=0γkRt+k+1|St=s]

Eπ[]代表的是在policy π 情况下任意时刻的期望。所有的terminal state的value都是0,vπ函数是policy π 的state-value function。
qπ(s,a)代表的是在state s并在policy π的情况下采取action a 的reward的期望。
qπ(s,a)Eπ[Gt|St=s,At=a]=E[k=0γkRt+k+1|St=s,At=a]

qπ是policy π 的 action-value function。
vπ(s) 满足下述递归式。
vπ(s)Eπ[k=0γkRt+k+1|St=s]=Eπ[Rt+1+γk=0γkRt+k+2|St=s]=aπ(a|s)srp(s,r|s,a)[r+γEπ[k=0γkRt+k+2|St+1=s]]//π(a|s)state saaction//psreward r,rs//reward rrewardvalue=aπ(a|s)s,rp(s,r|s,a)[r+γvπ(s)]

上式就是对于 vπ 的Bellman equation,下图就是backup diagrams,它表示了增强学习中一个很重要的操作backup:将value的信息从后续的state回传给上一个state

Optimal Value Function

当且仅当对于所有sS都有vπ(s)vπ(s),则称ππ。总存在至少这样一个policy是优于或等于其他所有的policy的,这就是optimal policy,用π来表示。optimal policy可能有很多个,但它们都共享同样的state-value function,记作v。并且满足下式:

v(s)maxπvπ(s)sS

它们也共享相同的optimal action-value function,记作q,可以定义成
q(s,a)maxπqπ(s,a)

也可以写成v的形式
q(s,a)=E[Rt+1+γv(St+1)|St=s,At=a]

因为v(s)是最优的,所以它的值必定等于在那个state最优的action的return,也就可以表示成
v(s)=maxaA(s)qπ(s,a)=maxaEπ[k=0γkRt+k+1|St=s,At=a]=maxaE[Rt+1+γv(St+1)|St=s,At=a]=maxaA(s)s,rp(s,r|s,a)[r+γv(s)]

q也可以换一种表达方式
q(s,a)=s,rp(s,r|s,a)[r+γmaxaq(s,a)]

上述式子称为Bellman optimality equation
事实上我们只要知道p(s,r|s,a)就可以通过上述的式子推导出v,因为每个s有这样一个等式,如果有N个state也就有N个等式,有N个未知数,就可以通过非线性方程解出来。得到了v也就可以得出q。这也就意味着我们只要在每个state greedy地找到一个action使得Bellman optimality equation最大化就可以了。本来greedy是一个短期的概念,但因为value本来就考虑了长远的reward,就使得只要greedy地专注于短期的或者说某一步的最优就可以得到长期的最优,就将return从长期转化到了每个state局部、立马可得的。
虽然接触Bellman optimality equation可以得到最优的policy,但是很少是直接有效的,因为这要求穷举,找出所有的可能性。这个解决方案建立在至少以下3个假设上:
  1. 可以很精确地知道环境的动态
  2. 有足够多的计算资源
  3. 符合马尔可夫
    很多增强学习的问题都可以看作是近似解出Bellman optimality equation

Optimality and Approximation

主要要克服的问题:计算力的限制(尤其是每一步计算力的限制),空间的限制
增强学习on-line学习的本质让其放更多的精力在经常出现的情况上,在这些情况上做更好的决定,而不是专注于不经常出现的情况。

The authoritative textbook for reinforcement learning by Richard Sutton and Andrew Barto. Contents Preface Series Forward Summary of Notation I. The Problem 1. Introduction 1.1 Reinforcement Learning 1.2 Examples 1.3 Elements of Reinforcement Learning 1.4 An Extended Example: Tic-Tac-Toe 1.5 Summary 1.6 History of Reinforcement Learning 1.7 Bibliographical Remarks 2. Evaluative Feedback 2.1 An -Armed Bandit Problem 2.2 Action-Value Methods 2.3 Softmax Action Selection 2.4 Evaluation Versus Instruction 2.5 Incremental Implementation 2.6 Tracking a Nonstationary Problem 2.7 Optimistic Initial Values 2.8 Reinforcement Comparison 2.9 Pursuit Methods 2.10 Associative Search 2.11 Conclusions 2.12 Bibliographical and Historical Remarks 3. The Reinforcement Learning Problem 3.1 The Agent-Environment Interface 3.2 Goals and Rewards 3.3 Returns 3.4 Unified Notation for Episodic and Continuing Tasks 3.5 The Markov Property 3.6 Markov Decision Processes 3.7 Value Functions 3.8 Optimal Value Functions 3.9 Optimality and Approximation 3.10 Summary 3.11 Bibliographical and Historical Remarks II. Elementary Solution Methods 4. Dynamic Programming 4.1 Policy Evaluation 4.2 Policy Improvement 4.3 Policy Iteration 4.4 Value Iteration 4.5 Asynchronous Dynamic Programming 4.6 Generalized Policy Iteration 4.7 Efficiency of Dynamic Programming 4.8 Summary 4.9 Bibliographical and Historical Remarks 5. Monte Carlo Methods 5.1 Monte Carlo Policy Evaluation 5.2 Monte Carlo Estimation of Action Values 5.3 Monte Carlo Control 5.4 On-Policy Monte Carlo Control 5.5 Evaluating One Policy While Following Another 5.6 Off-Policy Monte Carlo Control 5.7 Incremental Implementation 5.8 Summary 5.9 Bibliographical and Historical Remarks 6. Temporal-Difference Learning 6.1 TD Prediction 6.2 Advantages of TD Prediction Methods 6.3 Optimality of TD(0) 6.4 Sarsa: On-Policy TD Control 6.5 Q-Learning: Off-Policy TD Control 6.6 Actor-Critic Methods 6.7 R-Learning for Undiscounted Continuing Tasks 6.8 Games, Afterstates, and Other Special Cases 6.9 Summary 6.10 Bibliographical and Historical Remarks III. A Unified View 7. Eligibility Traces 7.1 -Step TD Prediction 7.2 The Forward View of TD( ) 7.3 The Backward View of TD( ) 7.4 Equivalence of Forward and Backward Views 7.5 Sarsa( ) 7.6 Q( ) 7.7 Eligibility Traces for Actor-Critic Methods 7.8 Replacing Traces 7.9 Implementation Issues 7.10 Variable 7.11 Conclusions 7.12 Bibliographical and Historical Remarks 8. Generalization and Function Approximation 8.1 Value Prediction with Function Approximation 8.2 Gradient-Descent Methods 8.3 Linear Methods 8.3.1 Coarse Coding 8.3.2 Tile Coding 8.3.3 Radial Basis Functions 8.3.4 Kanerva Coding 8.4 Control with Function Approximation 8.5 Off-Policy Bootstrapping 8.6 Should We Bootstrap? 8.7 Summary 8.8 Bibliographical and Historical Remarks 9. Planning and Learning 9.1 Models and Planning 9.2 Integrating Planning, Acting, and Learning 9.3 When the Model Is Wrong 9.4 Prioritized Sweeping 9.5 Full vs. Sample Backups 9.6 Trajectory Sampling 9.7 Heuristic Search 9.8 Summary 9.9 Bibliographical and Historical Remarks 10. Dimensions of Reinforcement Learning 10.1 The Unified View 10.2 Other Frontier Dimensions 11. Case Studies 11.1 TD-Gammon 11.2 Samuel&#39;s Checkers Player 11.3 The Acrobot 11.4 Elevator Dispatching 11.5 Dynamic Channel Allocation 11.6 Job-Shop Scheduling Bibliography Index
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值