序贯决策理论与博弈论:计算最优策略与博弈规划
在决策理论和博弈论的领域中,序贯决策和序贯博弈是重要的研究方向。序贯决策涉及在一系列步骤中做出最优选择,而序贯博弈则考虑多个决策者在多个阶段的交互。本文将深入探讨这些概念,包括Q学习、价值迭代、策略迭代以及序贯博弈中的博弈树和安全策略。
1. Q学习:计算最优策略
在基于模拟的框架下,从评估计划过渡到计算最优计划是一个重要的问题。Q学习通过计算Q因子(Q∗(x, u))来解决这个问题。Q因子是最优代价到目标(G∗)的扩展,它记录了每个状态x和动作u组合的最优代价。
1.1 价值迭代
基于模拟的价值迭代可以通过Q因子来构建。使用Q因子而不是G∗的原因是避免在动态规划中对U(x)进行最小化操作。这样可以采用逐个样本的方法来估计最优值并最终获得最优计划。
最优代价到目标可以通过Q因子计算得到:
[G^ (x) = \min_{u\in U(x)} {Q^ (x, u)}]
动态规划的递推公式可以表示为:
[Q^ (x, u) = l(x, u) + \sum_{x’\in X} P(x’|x, u) \min_{u’\in U(x’)} {Q^ (x’, u’)}]
也可以用G∗表示为:
[Q^ (x, u) = l(x, u) + \sum_{x’\in X} P(x’|x, u) G^ (x’)]
由于成本和转移概率未知,需要采用基于模拟的方法。模拟版的价值迭代公式为:
[\hat{Q}^ (x, u) := (1 -
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



