多智能体竞争意见优化学习与最大零和划分问题解析
1. 多智能体竞争意见优化学习
在竞争意见优化的场景中,我们主要关注Stackelberg意见优化博弈。在这个博弈里,有最小化玩家(min player)和对抗性玩家(adversarial player,即最大化玩家max player)。由于对抗性玩家可以覆盖最小化玩家的选择,且问题不具备像$x^TMy$这样的对称结构,所以我们仅对最小化玩家进行均衡策略分析。
1.1 模拟FTPL算法的博弈过程
为了找到领导者(最小化玩家)的策略,我们将问题转化为在线线性优化问题,模拟FTPL算法的加法版本来获取一系列“随机化”(分数)策略,然后得到一个“平均”(在时间步上)的随机化(分数)策略作为随机化算法的输出。
具体步骤如下:
1. 选择$T_{min}$,它是从${1, \ldots, T}$中均匀随机选取的。
2. 对于$t = 1$到$T_{min}$:
- 最小化玩家在时间步$t$的(分数)策略$x(t) = \arg \min_{x \in X} L^{(t - 1)}(x) = \arg \min_{x \in X} (\sum_{\tau = 1}^{t - 1} f^{(\tau)}(x) + R_t^{\top} x)$,其中$R_t$是一个在每个维度上均匀分布于$[0, \sqrt{T}]^n$的随机向量。
- 估计对抗性玩家的策略$y(t) \simeq \arg \max_{y \in Y} f(E[x(t)], y)$。
这个随机化算法的主要结果是,它输出的随机化纯策略接近一个近似极小极大均衡策略。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



