David Silver强化学习公开课】-2:MDP

马尔科夫决策过程详解
本文详细介绍了马尔科夫决策过程(MDP)的基本概念,包括马尔科夫性质、状态转移矩阵、价值函数等,并探讨了MDP与马尔科夫过程及马尔科夫激励过程的关系。此外,还讨论了最佳价值函数和策略的计算方法。
一、一些概念

马尔科夫性质:当前时刻状态仅仅与前一个时刻相关。

状态转移矩阵,表明了任意状态a到状态b的条件概率。

马尔科夫过程(马尔科夫链):一个具有马尔科夫性质的无记忆的随机过程,包含n个状态。

马尔科夫激励过程(S,P,R,γ)是一个带有value的马尔科夫链。

Gt Gt来表示t时刻会得到的总的return。出于数学计算、防止NaN无穷大的return等原因,引入折扣因子 γ[0,1] γ∈[0,1]来对下一时刻的奖励和更远的奖励之间进行取舍。(若所有序列都会在有限步终结,而且策略上合适,γ也可以取1。)

Gt=Rt+1+γRt+2+...=k=0γkRt+k+1 Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1

价值函数v(s),在马尔科夫激励过程(MRP)中表征指定状态下,获得的return的期望。是由所有包含该状态的样本Sample序列计算出来的。其中 Rs Rs是立即奖励,可以认为是离开状态s时获得的奖励。

v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γsSPssv(s) v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γ∑s′∈SPss′v(s′)

上面的公式可以向量化的表示为:

V=R+γPV V=R+γPV

而这个公式是有解析解的,MRP每个状态的价值可以直接被解出来。

二、MDP

马尔科夫决策过程(S,A,P,R,γ),在MRP基础上增加了有限的action集合。

策略,给定状态时,关于行为的概率分布,用π来表示。决定了agent的行为。

MDP和马尔科夫过程、MRP内在的联系。

状态价值函数 vπ(s) vπ(s)定义了在状态s下,采用策略π,所能获得的期望return。

行为价值函数 qπ(s,a) qπ(s,a)定义了在状态s下,采取行为a,并在之后采用策略π所能获得的期望return。

这两个价值函数之间密切相关。状态的价值,就等于这个状态下所有行为a产生的行为价值q,乘以做出该行为的概率(策略)π。反之,行为的价值,就等于这个行为所能产生的立即奖励immediate reward加上折扣因子乘以下一个状态(到达这个状态的概率由动态转移矩阵来确定)乘以这个状态的状态价值。

在MDP中,你能够控制你的行为(通过策略),但是你无法控制环境(做出行为之后会发生什么),这个要靠动态转移矩阵来计算。

最佳价值函数 v(s) v∗(s) q(s,a) q∗(s,a)。最佳策略 π π∗,就是在每个状态下选择最大的行为价值函数q*。

如何计算这个Q呢,Bellman Optimality Equation。也就是对每个状态,其价值等于价值最大的行为的价值,而这个行为的价值又由直接奖励和行为*可能会导致的状态价值有关。

v(s)=maxaq(s,a) v∗(s)=maxaq∗(s,a)
q(s,a)=Ras+γsSPassv(s) q∗(s,a)=Rsa+γ∑s′∈SPss′av∗(s′)

而这个公式就无法直接解析求解了,求解的方法有:

  • Value iteration
  • Policy iteration
  • Q-learning
  • Sarsa

最后,对MDP的扩展模型和其他一些概念进行了简介,如infinite/continuous/POMDP/belief states。

参考

原文地址:http://cairohy.github.io/2017/08/29/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-2%EF%BC%9AMDP/

分布式微服务企业级系统是一个基于Spring、SpringMVC、MyBatis和Dubbo等技术的分布式敏捷开发系统架构。该系统采用微服务架构和模块化设计,提供整套公共微服务模块,包括集中权限管理(支持单点登录)、内容管理、支付中心、用户管理(支持第三方登录)、微信平台、存储系统、配置中心、日志分析、任务和通知等功能。系统支持服务治理、监控和追踪,确保高可用性和可扩展性,适用于中小型企业的J2EE企业级开发解决方案。 该系统使用Java作为主要编程语言,结合Spring框架实现依赖注入和事务管理,SpringMVC处理Web请求,MyBatis进行数据持久化操作,Dubbo实现分布式服务调用。架构模式包括微服务架构、分布式系统架构和模块化架构,设计模式应用了单例模式、工厂模式和观察者模式,以提高代码复用性和系统稳定性。 应用场景广泛,可用于企业信息化管理、电子商务平台、社交应用开发等领域,帮助开发者快速构建高效、安全的分布式系统。本资源包含完整的源码和详细论文,适合计算机科学或软件工程专业的毕业设计参考,提供实践案例和技术文档,助力学生和开发者深入理解微服务架构和分布式系统实现。 【版权说明】源码来源于网络,遵循原项目开源协议。付费内容为本人原创论文,包含技术分析和实现思路。仅供学习交流使用。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值