博弈论与多智能体优化:潜在博弈设计与学习策略
1. 博弈论基础
1.1 混合策略效用函数
在博弈论中,混合策略版本的效用函数 $f \tilde{U} i$ 可以用勒贝格积分表示:
$\tilde{U}_i(\sigma) = \int {A} U_i(x)d\sigma(x)$
其中,$\sigma(x)$ 是玩家混合策略的联合分布。
1.2 纳什均衡
在纯(混合)策略博弈中,假设玩家是自私的且相互独立决策,博弈的稳定结果是每个玩家对其他玩家的策略做出最佳反应。
- 最佳反应定义 :在纯(混合)策略博弈 $\Gamma = (N, {A_i} i, {U_i}_i)$($\tilde{\Gamma} = (N, {\sigma_i(A_i)}, {\tilde{U}_i})$)中,对于玩家 $i \in [N]$,行动 $a_i^ \in A_i$(混合策略 $\sigma_i^ \in \sigma_i(A_i)$)是对其他玩家联合行动 $a {-i}$(联合混合策略 $\sigma_{-i}$)的最佳反应,如果满足:
$U_i(a_i^ , a_{-i}) = \max_{a_i \in A_i} U_i(a_i, a_{-i})$
$(\tilde{U}_i(\sigma_i^ , \sigma_{-i}) = \max_{\sigma_i \in \sigma_i(A_i)} \tilde{U} i(\sigma_i, \sigma {-i}))$
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



