一个马尔科夫链实例----停车问题

本文探讨了基于《Foundationsofstochasticinventorytheory》中停车问题的分析。驾驶员在到达目的地前选择停车位,面对不确定的车位状态及成本,通过建立数学模型进行最优决策分析。文章详细介绍了状态变量、决策集合、状态转移方程等,并通过引入辅助函数F(x)来简化最优递推方程。

看了 《Foundations of stochastic inventory theory》 中的另一个例子,下面把这个例子描述下。
一个驾驶员到达目的地之前选择停车位,停车位的状态: 0 或 1, 表示停车位是否为空,0 表示空着,1 表示不空。空的概率为 pp, 不空的概率为 1p1−p。当前停车位举例重点距离为 xx,停车成本为 xx。若到了目的地还没找到停车位,只能听到付费停车位,成为为 cc

1. 状态变量

s=(x,i)s=(x,i),当前状态包括与终点的距离 xx,以及停车位是否空着 ii

2. 决策

a=0a=0 表示停车, a=1a=1 表示不停车继续走。决策集合 A=0,1A=0,1

3. 状态转移方程

这个问题的状态转移方程不好表示,但并不影响最优递推表达式

4. 即时成本(immediate value)

这个问题的即时成本也不好表示,但也不影响最优递推表达式

5. 最优递推方程(recursion function)

f(x,i)f(x,i) 表示当前状态 (x,i)(x,i) 最小期望停车成本。对该问题反向递推

f(1,i)={min{1,c}ci=0i=1f(1,i)={min{1,c}i=0ci=1

为了分析方便,引入一个辅助函数 F(x)F(x) (这个函数很巧妙),定义 F(0)=cF(0)=c

F(x)=pf(x,0)+(1p)f(x,1)F(x)=pf(x,0)+(1−p)f(x,1)

则可以得到递推函数:
f(x,i)={min{x,F(x1)}F(x1)i=0i=1f(x,i)={min{x,F(x−1)}i=0F(x−1)i=1

6. 分析最优解性质

为了分析性质,一般都要先猜测最优解的特点,然后根据这个特点寻找性质并证明。

最优解的特点:存在一个最优距离 SS,大于这个值时继续开车,小于这个值时则尽量停车。

因此需要分析 xxF(x1)F(x−1) 的大小关系,因此构造一个新的函数

g(x)=F(x1)xg(x)=F(x−1)−x

可以证明, F(x)F(x) 为单调减函数,而 g(x)g(x) 为严格单调减函数 (一个单调减函数与严格单调减函数的和为严格单调减函数)

并且 g(1)>0g(1)>0g(c)0g(c)≤0,因此一定存在一个 SSg(S)>0g(S)>0, g(S+1)0g(S+1)≤0

7. 构造马尔科夫链

定义 V(x,S)V(x,S) 表示在当前距离为 xx,采用分位点 SS 的停车策略时的最小期望成本。则该策略下的马尔科夫链表达式如下:

V(x,S)=cpx+(1p)V(x1,S)V(S,S)x=00<xSx>SV(x,S)={cx=0px+(1−p)V(x−1,S)0<x≤SV(S,S)x>S

通过递推,得到 V(S,S)V(S,S) 的表达式如下,令 q=1pq=1−p

V(S,S)==pi=0S(1p)i(Si)+(1p)ScSq(1qS)p+qScV(S,S)=p∑i=0S(1−p)i(S−i)+(1−p)Sc=S−q(1−qS)p+qSc

为了求解,我们必须分析函数 VV 的性质,其一阶导数:

Δ(S)=V(S+1,S)V(S,S)=1qS(q+pc)Δ(S)=V(S+1,S)−V(S,S)=1−qS(q+pc)

上式为增函数,可以推出 VV 为一个关于 SS 的凸函数。

令一阶导数为零,得到最优的 SS:

Sln(q+pc)lnqS≥−ln⁡(q+pc)ln⁡q

转载于:https://www.cnblogs.com/robinchen/p/11047545.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值