决策理论规划与强化学习方法解析
1. 决策理论规划基础
1.1 有限水平折扣问题的价值迭代
对于有限水平折扣问题,通过对公式进行变换,可得到如下表达式:
[J_{i}^{ }(x_{k}) = \min_{u_{k} \in U(x_{k})} \left{ E_{\theta_{k}} \left[ l(x_{k}, u_{k}, \theta_{k}) + \alpha J_{i - 1}^{ }(x_{k + 1}) \right] \right}]
其中,(J_{i}^{ }) 表示 (K = i) 时有限水平折扣问题的期望成本。该公式通过逆向价值迭代的方式,用 (J_{i - 1}^{ }) 来表示 (J_{i}^{ })。价值迭代从 (J_{0}^{ }(x_{0}) = 0)(对于所有 (x \in X))开始,在状态空间上迭代公式 (10.74) 来计算后续的成本到目标函数。在避免循环的假设下,由于无限水平的原因,收敛通常是渐近的,折扣会逐渐使成本差异减小,直到达到所需的容差。
当 (i) 趋于无穷大时,动态规划递推的稳态形式为:
[J^{ }(x) = \min_{u \in U(x)} \left{ E_{\theta_{k}} \left[ l(x, u, \theta) + \alpha J^{ }(f(x, u, \theta)) \right] \right}]
如果成本项不依赖于自然状态,则简化形式为:
[J^{ }(x) = \min_{u \in U(x)} \left{ l(x, u) + \a
超级会员免费看
订阅专栏 解锁全文
2799

被折叠的 条评论
为什么被折叠?



