看了 《Foundations of stochastic inventory theory》 中的另一个例子,下面把这个例子描述下。
一个驾驶员到达目的地之前选择停车位,停车位的状态: 0 或 1, 表示停车位是否为空,0 表示空着,1 表示不空。空的概率为 pp, 不空的概率为 1−p1−p。当前停车位举例重点距离为 xx,停车成本为 xx。若到了目的地还没找到停车位,只能听到付费停车位,成为为 cc。
1. 状态变量
s=(x,i)s=(x,i),当前状态包括与终点的距离 xx,以及停车位是否空着 ii。
2. 决策
a=0a=0 表示停车, a=1a=1 表示不停车继续走。决策集合 A=0,1A=0,1
3. 状态转移方程
这个问题的状态转移方程不好表示,但并不影响最优递推表达式
4. 即时成本(immediate value)
这个问题的即时成本也不好表示,但也不影响最优递推表达式
5. 最优递推方程(recursion function)
设 f(x,i)f(x,i) 表示当前状态 (x,i)(x,i) 最小期望停车成本。对该问题反向递推
为了分析方便,引入一个辅助函数 F(x)F(x) (这个函数很巧妙),定义 F(0)=cF(0)=c
则可以得到递推函数:
6. 分析最优解性质
为了分析性质,一般都要先猜测最优解的特点,然后根据这个特点寻找性质并证明。
最优解的特点:存在一个最优距离 SS,大于这个值时继续开车,小于这个值时则尽量停车。
因此需要分析 xx 与 F(x−1)F(x−1) 的大小关系,因此构造一个新的函数
可以证明, F(x)F(x) 为单调减函数,而 g(x)g(x) 为严格单调减函数 (一个单调减函数与严格单调减函数的和为严格单调减函数)
并且 g(1)>0g(1)>0,g(c)≤0g(c)≤0,因此一定存在一个 SS, g(S)>0g(S)>0, g(S+1)≤0g(S+1)≤0
7. 构造马尔科夫链
定义 V(x,S)V(x,S) 表示在当前距离为 xx,采用分位点 SS 的停车策略时的最小期望成本。则该策略下的马尔科夫链表达式如下:
通过递推,得到 V(S,S)V(S,S) 的表达式如下,令 q=1−pq=1−p,
为了求解,我们必须分析函数 VV 的性质,其一阶导数:
上式为增函数,可以推出 VV 为一个关于 SS 的凸函数。
令一阶导数为零,得到最优的 SS: