博弈论与多智能体优化:潜在博弈设计与学习策略
1. 博弈论基础概念
在博弈论中,混合策略版本的函数 ( \overline{U} i ) 由勒贝格积分表示,即 ( \overline{U}_i(\sigma) = \int {A} U_i(x)d\sigma(x) ),其中 ( \sigma(x) ) 是玩家混合策略的联合分布。
1.1 纳什均衡
在纯(混合)策略博弈中,假设玩家是自私且独立决策的,博弈的稳定结果是每个玩家对其他所有玩家的策略做出最佳反应。
- 最佳反应定义 :在纯(混合)策略博弈 ( \Gamma = (N, {A_i}, {U_i}) )(( \overline{\Gamma} = (N, {\sigma_i(A_i)}, {\overline{U} i}) ))中,行动 ( a_i^ \in A_i )(混合策略 ( \sigma_i^ \in \sigma_i(A_i) ))是玩家 ( i \in [N] ) 对其他玩家的联合行动 ( a {-i} )(其他玩家的联合混合策略 ( \sigma_{-i} ))的最佳反应,如果 ( U_i(a_i^ , a_{-i}) = \max_{a_i \in A_i} U_i(a_i, a_{-i}) )(( \overline{U}_i(\sigma_i^ , \sigma_{-i}) = \max_{\sigma_i \in \sigma_i(A_i)} \overline{U} i(\sigma_i, \sigma {-i}) ))。
- <
超级会员免费看
订阅专栏 解锁全文
842

被折叠的 条评论
为什么被折叠?



