36、多准则动态博弈与反馈最大原理解析

多准则动态博弈与反馈最大原理解析

多准则动态博弈

在多准则动态博弈中,我们主要关注具有随机规划 horizon 的情况。这里涉及到两种重要的均衡:非合作均衡和合作均衡。

非合作均衡

在寻找线性策略 (u_N^{it} = \gamma_N^{it} x)((i \in N),(t = m - 2, m - 1))时,我们发现所有策略是一致的,即 (\gamma_N^{1t} = \cdots = \gamma_N^{nt} = \gamma_N^{t})((t = m - 2, m - 1))。从一阶最优性条件,我们可以得到当游戏进行到 (m - 2) 和 (m - 1) 步时,玩家的均衡策略之间的关系:
((\varepsilon - n\gamma_N^{m - 2})(1 - \delta\Theta_{m - 1}^{m - 2}(\varepsilon - (n + 1)\gamma_N^{m - 1}))[\delta^{m - 1}\gamma_N^{m - 1} + \Theta_{m}^{m - 1}G(\varepsilon - n\gamma_N^{m - 1})] = (\gamma_N^{m - 2} - \delta\Theta_{m - 1}^{m - 2}\gamma_N^{m - 1}(\varepsilon - n\gamma_N^{m - 2})(\varepsilon - (n + 1)\gamma_N^{m - 1}))[\delta^{m - 1} - \Theta_{m}^{m - 1}A])
通过持续这个过程直到游戏达到第 (k) 步,我们可以得到收益和确定纳什均衡策略的关系。

合作均衡
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值