顺序决策理论与博弈论解析
在决策理论和博弈论的领域中,顺序决策和顺序博弈是重要的研究方向。下面将详细介绍顺序决策中的Q学习以及顺序博弈中基于博弈树的相关内容。
1. Q学习:计算最优计划
在基于模拟的框架下,从评估计划过渡到计算最优计划,关键在于计算Q因子$Q^ (x, u)$。它是最优代价 - 到 - 目标$G^ $的扩展,记录了每个状态$x \in X$和动作$u \in U(x)$组合的最优代价。$Q^ (x, u)$表示从状态$x$开始,应用动作$u$,然后从得到的下一个状态$x’ = f(x, u, \theta)$开始遵循最优计划所获得的期望代价。如果$u$恰好是最优计划$\pi^ (x)$选择的动作,那么$Q^ (x, u) = G^ (x)$。可以将Q值看作是在第一阶段做出任意选择,然后在后续阶段进行最优决策的代价。
1.1 值迭代
可以基于Q因子构建基于模拟的值迭代版本。使用Q因子而非$G^ $的原因是,在动态规划中可以避免对$U(x)$进行最小化操作。避免这种最小化使得可以采用逐个样本的方法来估计最优值,最终获得最优计划。最优代价 - 到 - 目标可以从Q因子中得到:
$G^ (x) = \min_{u\in U(x)} {Q^*(x, u)}$ (10.97)
这使得动态规划递推式(10.46)可以表示为:
$Q^ (x, u) = l(x, u) + \sum_{x’\in X} P(x’|x, u) \min_{u’\in U(x’)} {Q^ (x’, u’)}$ (10.98)
超级会员免费看
订阅专栏 解锁全文
53

被折叠的 条评论
为什么被折叠?



