2、博弈论与多智能体优化:潜在博弈设计与学习策略

博弈论与多智能体优化:潜在博弈设计与学习策略

1. 博弈论基础

1.1 混合策略效用函数

在博弈论中,混合策略版本的效用函数 $f \tilde{U} i$ 可以用勒贝格积分表示:
$\tilde{U}_i(\sigma) = \int
{A} U_i(x)d\sigma(x)$
其中,$\sigma(x)$ 是玩家混合策略的联合分布。

1.2 纳什均衡

在纯(混合)策略博弈中,假设玩家是自私的且相互独立决策,博弈的稳定结果是每个玩家对其他玩家的策略做出最佳反应。
- 最佳反应定义 :在纯(混合)策略博弈 $\Gamma = (N, {A_i} i, {U_i}_i)$($\tilde{\Gamma} = (N, {\sigma_i(A_i)}, {\tilde{U}_i})$)中,对于玩家 $i \in [N]$,行动 $a_i^ \in A_i$(混合策略 $\sigma_i^ \in \sigma_i(A_i)$)是对其他玩家联合行动 $a {-i}$(联合混合策略 $\sigma_{-i}$)的最佳反应,如果满足:
$U_i(a_i^ , a_{-i}) = \max_{a_i \in A_i} U_i(a_i, a_{-i})$
$(\tilde{U}_i(\sigma_i^
, \sigma_{-i}) = \max_{\sigma_i \in \sigma_i(A_i)} \tilde{U} i(\sigma_i, \sigma {-i}))$

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值