10、多智能体竞争意见优化学习与最大零和划分问题解析

多智能体竞争意见优化学习与最大零和划分问题解析

1. 多智能体竞争意见优化学习

在竞争意见优化的场景中,我们主要关注Stackelberg意见优化博弈。在这个博弈里,有最小化玩家(min player)和对抗性玩家(adversarial player,即最大化玩家max player)。由于对抗性玩家可以覆盖最小化玩家的选择,且问题不具备像$x^TMy$这样的对称结构,所以我们仅对最小化玩家进行均衡策略分析。

1.1 模拟FTPL算法的博弈过程

为了找到领导者(最小化玩家)的策略,我们将问题转化为在线线性优化问题,模拟FTPL算法的加法版本来获取一系列“随机化”(分数)策略,然后得到一个“平均”(在时间步上)的随机化(分数)策略作为随机化算法的输出。

具体步骤如下:
1. 选择$T_{min}$,它是从${1, \ldots, T}$中均匀随机选取的。
2. 对于$t = 1$到$T_{min}$:
- 最小化玩家在时间步$t$的(分数)策略$x(t) = \arg \min_{x \in X} L^{(t - 1)}(x) = \arg \min_{x \in X} (\sum_{\tau = 1}^{t - 1} f^{(\tau)}(x) + R_t^{\top} x)$,其中$R_t$是一个在每个维度上均匀分布于$[0, \sqrt{T}]^n$的随机向量。
- 估计对抗性玩家的策略$y(t) \simeq \arg \max_{y \in Y} f(E[x(t)], y)$。

这个随机化算法的主要结果是,它输出的随机化纯策略接近一个近似极小极大均衡策略。

1.2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值