多准则动态博弈与反馈最大原理解析
多准则动态博弈
在多准则动态博弈中,我们主要关注具有随机规划 horizon 的情况。这里涉及到两种重要的均衡:非合作均衡和合作均衡。
非合作均衡
在寻找线性策略 (u_N^{it} = \gamma_N^{it} x)((i \in N),(t = m - 2, m - 1))时,我们发现所有策略是一致的,即 (\gamma_N^{1t} = \cdots = \gamma_N^{nt} = \gamma_N^{t})((t = m - 2, m - 1))。从一阶最优性条件,我们可以得到当游戏进行到 (m - 2) 和 (m - 1) 步时,玩家的均衡策略之间的关系:
((\varepsilon - n\gamma_N^{m - 2})(1 - \delta\Theta_{m - 1}^{m - 2}(\varepsilon - (n + 1)\gamma_N^{m - 1}))[\delta^{m - 1}\gamma_N^{m - 1} + \Theta_{m}^{m - 1}G(\varepsilon - n\gamma_N^{m - 1})] = (\gamma_N^{m - 2} - \delta\Theta_{m - 1}^{m - 2}\gamma_N^{m - 1}(\varepsilon - n\gamma_N^{m - 2})(\varepsilon - (n + 1)\gamma_N^{m - 1}))[\delta^{m - 1} - \Theta_{m}^{m - 1}A])
通过持续这个过程直到游戏达到第 (k) 步,我们可以得到收益和确定纳什均衡策略的关系。
超级会员免费看
订阅专栏 解锁全文
294

被折叠的 条评论
为什么被折叠?



