【强化学习】有限马尔科夫模型

本文详细介绍了有限马尔可夫决策过程(MDP)的概念,包括状态、动作、环境、收益和动态特性。MDP是强化学习的基础,其中智能体通过与环境的交互学习最大化长期收益。它涉及到策略、价值函数和最优策略的计算,以及分幕式和持续性任务的处理。文中以GridWorld问题为例,展示了如何计算状态-价值函数和最优状态-价值函数。


有限马尔可夫决策过程(有限MDP问题)既涉及“评估性反馈”,又涉及“发散联想”,即在不同情境下选择不同的动作。MDP是序列决策的经典形式化表达,其动作不仅影响当前的即时收益,还影响后续的情境(又称状态)以及未来的收益。因此,MDP涉及了延迟收益,由此也就有了在当前收益和延迟收益之间权衡的需求。

在赌博机问题中,我们估计了每个动作a的价值 q ∗ ( a ) q_*(a) q(a),而在MDP中,每个动作 a a a在每个状态s中的价值 q ∗ ( s , a ) q_*(s,a) q(s,a),或者估计给定最有动作下的每个状态的价值 v ∗ ( s ) v_*(s) v(s)

“智能体-环境”交互接口

MDP是一种通过交互式学习来实现目标的理论框架。进行学习及实施决策的机器被称为智能体(agent)。与之相互作用的事物都被称为环境(environment)。事物之间持续交互,智能体选择动作,环境对这些动作做出响应,并向智能体呈现出新的状态。而环境也会产生收益,通常是特定的数值,这就是智能体在动作选择过程中想要最大化的目标。
在这里插入图片描述
在每个离散时刻t = 0,1,2,3,…,(会有连续的情况), 智能体和环境都发生了交互。 S t ∈ S S_t∈S StS,选择一个动作, A t ∈ A ( s ) A_t∈A(s) AtA(s)。然后在下一时刻,作为其动作的结果,智能体接收到一个数值化, R t + 1 ∈ R R_{t+1}∈R Rt+1R,然后进入一个新的状态 S t + 1 S_{t+1} St+1。最后MDP和智能体共同给出了序列或者说轨迹。 S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , A 2 , R 3 , . . . S_0,A_0,R_1,S_1,A_1,R_2,A_2,R_3,... S0,A0,R1,S1,A1,R2,A2,R3,...
在有限MDP中,状态、动作和收益的集合(S、A和R)都只有有限个元素。在这种情况下,随机变量 R t R_t Rt S t S_t St具有定义明确的离散概率分布,并且只依赖于前继状态和动作,换言之,给定前继状态和动作的值时, s ′ ∈ S s'∈S sS r ∈ R r∈R rR,在t时刻出现的概率是
在这里插入图片描述
对于任意 s ′ , s ∈ S , r ∈ R s',s∈S,r∈R s,sSrR,以及 a ∈ A ( s ) a∈A(s) aA(s)。函数p定义了MDP的动态特性。动态函数 p : S ∗ R ∗ S ∗ A − > [ 0 , 1 ] p:S*R*S*A->[0,1] p:SRS<

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值