无限期马尔可夫决策过程:理论与算法详解
1. 无限期折扣问题的马尔可夫链理论
在处理无限期且有折扣奖励的马尔可夫决策过程(MDP)时,我们关注的效用是折扣总奖励,其表达式为:
[U_t = \lim_{T \to \infty} \sum_{k=t}^{T} \gamma^k r_k, \quad \gamma \in (0, 1)]
为简化问题,我们假设奖励仅依赖于当前状态,同时假定状态空间 (S) 和动作空间 (A) 是有限的,且 MDP 的转移核是时不变的。基于这些假设,我们引入以下简化的向量表示:
- (v_{\pi} = (E_{\pi}(U_t | s_t = s)) {s \in S}):表示策略 (\pi) 的价值向量,属于 (\mathbb{R}^{|S|})。
- (p(j|s, a)):是 (P {\mu}(s_{t+1} = j | s_t = s, a_t = a)) 的简写。
- (P_{\mu,\pi}):策略 (\pi) 的转移矩阵,属于 (\mathbb{R}^{|S| \times |S|}),其中 (P_{\mu,\pi}(i, j) = \sum_{a} p(j | i, a) P_{\pi}(a | i))。
- (r):奖励向量,属于 (\mathbb{R}^{|S|})。
- 价值函数空间 (V) 是一个配备了范数 (|v| = \sup {|v(s)| | s \in S}) 的巴拿赫空间。
对于无限期折扣 MDP,平稳策略就足够了。平稳策略的定义为:若对于所有的 (n) 和 (t),都有 (\pi(a_t | s_t) = \pi(a_n | s_n)),则策
超级会员免费看
订阅专栏 解锁全文
1465

被折叠的 条评论
为什么被折叠?



