一个马尔科夫链实例

原创已于 2023-09-13 22:16:11 修改 · 8.1k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#马尔科夫 #实例

于 2018-07-27 15:14:44 首次发布

数学优化同时被 2 个专栏收录

147 篇文章

订阅专栏

供应链管理

18 篇文章

订阅专栏

马尔科夫早就了解过，但一直没有真正用马尔科夫的思想求解问题，更没有用到论文中去。

最近发现了一本好书：《Foundations of stochastic inventory theory》，斯坦福大学出版的。这本书不厚，才 200多页，讲的比较清晰，目测比其他库存管理的教材要好，准备精度完这本书。

下面探讨书中的一个马尔科夫实例。

1. 状态（state）

一个零售商面对的顾客有两种状态，
状态 s1：上一个月买过该零售商的商品
状态 s2：上一个月没有买过该零售商的商品

2. 决策 (action)

零售商可以做出 3 个决策及对应的决策成本：
决策 a1 ：什么都不做成本：0
决策 a2 ：发礼物，小促销成本：0.5
决策 a3：发礼物，大促销成本：0.5

3. 状态转移及转移概率 (transition equation and possibility)

Initial state $s$	Action $a$	Next state1 and possibility $p_{s_1}^{a}$	Next state2 and possibility $p_{s_2}^{a}$
s1	a1	s1, 0.99	s2, 0.01
s1	a2	s1, 0.93	s2, 0.07
s1	a3	s1, 0.85	s2, 0.15
s2	a1	s1, 0.80	s2, 0.20
s2	a2	s1, 0.72	s2, 0.28
s2	a3	s1, 0.50	s2, 0.50

4. 折现率 (discount factor)

折现率 $α=0.99\alpha=0.99$
有效转移概率 $qsja=α∗psjaq_{s_j}^a=\alpha*p_{s_j}^a$

####5. 即时收益（immediate value）
若顾客不购买商品，收益为 0；
不促销时，顾客购买商品，收益为 8；
小促销时，顾客购买商品，收益为 7；
大促销时，顾客购买商品，收益为 3；

减去成本，得到的期望即时回报（immediate return） $r (s, a)$ 为：

Initial state $s$	Action $a$	Action cost $c (a)$	Expected immediate return
s1	a1	0	0.99*(0.990+0.018)-0 = 0.08
s1	a2	0.5	0.99*(0.930+0.077)-0.5 = -0.01
s1	a3	0.5	0.99*(0.850+0.153)-0.5 = -0.05
s2	a1	0	0.99*(0.80+0.28)-0 = 1.6
s2	a2	0.5	0.99*(0.720+0.287)-0.5 = 1.4
s2	a3	0.5	0.99*(0.50+0.53)-0.5 = 1

若是单周期决策，从上表可以看出，不论初始状态是什么，最有决策都是 $a 1$ ，即不促销不发礼物。

6. 两阶段决策

若是两阶段决策，则期望回报和需要再算一层。

Initial state $s$	Action $a$	Action cost $c (a)$	Expected immediate return	Expected sum immediate return
s1	a1	0	0.99*(0.990+0.018)-0 = 0.08	0.08 + 0.99*(0.990.08+0.011.6)=0.1736
s1	a2	0.5	0.99*(0.930+0.077)-0.5 = -0.01	-0.01 + 0.99*(0.930.08+0.071.9)=0.17
s1	a3	0.5	0.99*(0.850+0.153)-0.5 = -0.05	-0.05+0.99(0.850.08+0.151.6)=0.2
s2	a1	0	0.99*(0.80+0.28)-0 = 1.6	0.6+0.99(0.850.08+0.151.6)=1.87
s2	a2	0.5	0.99*(0.720+0.287)-0.5 = 1.4	1.4+0.99(0.850.08+0.151.6)=1.85
s2	a3	0.5	0.99*(0.50+0.53)-0.5 = 1	1+0.99(0.850.08+0.151.6)=1.75

从上表可以得出最优决策策略是：若初始状态为 $s_1$ ，最优决策 $a_3$ ，即大促销；若初始状态为 $s_2$ ，最优决策 $a_1$ ，即不促销。

7. 最优递推方程

定义 $f^{n}(s)$ 表示初始状态为 $s$ ，之后 $n$ 个阶段的最优期望回报，则最优递推方程可以表示为：
$fn(s)=max⁡ar(s,a)+α∑jpsjfn−1(j)f^{n}(s)=\max_{a}\quad r(s, a)+\alpha\sum_j p_{sj}f^{n-1}(j)$