交换遗憾与极小极大定理
在博弈论中,均衡概念的可处理性是一个重要的研究方向。之前已经证明了粗相关均衡概念在一定意义上是可处理的,存在简单且计算高效的学习程序能快速收敛到有限博弈中的粗相关均衡集。本文将进一步探讨更严格的遗憾概念,并证明相关均衡概念以及在特殊的两人零和博弈中混合纳什均衡概念的可处理性。
1. 交换遗憾与相关均衡
-
相关均衡的定义
:
- 在成本最小化博弈中,结果集 (S_1 × · · · × S_k) 上的分布 (\sigma) 是相关均衡,当且仅当对于每个参与者 (i \in {1, 2, …, k}) 和交换函数 (\delta : S_i → S_i),有 (E_{s∼\sigma}[C_i(s)] ≤ E_{s∼\sigma}[C_i(\delta(s_i), s_{-i})])。
- 每个相关均衡都是粗相关均衡,但反之一般不成立。
-
交换遗憾的引入
:
- 为了找到能收敛到相关均衡集的动态过程,需要定义更严格的遗憾概念——交换遗憾。
- 回顾在线决策问题模型,在每个时间步 (t = 1, 2, …, T),决策者选择行动集 (A) 上的分布 (p_t),对手选择成本函数 (c_t : A → [-1, 1]),最后根据 (p_t) 选择行动 (a_t),产生成本 (c_t(a_t))。
- 交换遗憾的定义 :固定成本向量 (c_1, …, c_T),行动序列 (a_1, …, a_T) 的交换遗憾为 (\frac{1}{T} \left[ \sum_{t=1}^{T} c_t(a_t) - \min_{\delta:A→A} \sum_{t=1}^{T} c_t(\delta(a_t)) \right]),其中最小值是对所有交换函数 (\delta) 取的。
- 无交换遗憾算法的定义 :在线决策算法 (A) 无交换遗憾,如果对于每个 (\epsilon > 0),存在足够大的时间跨度 (T = T(\epsilon)),使得对于 (A) 的每个对手,期望交换遗憾至多为 (\epsilon)。
-
无交换遗憾动态与相关均衡的关系
:
- 在无交换遗憾动态的每个时间步 (t),每个参与者 (i) 独立地使用无交换遗憾算法选择混合策略 (p_{t}^i)。
- 命题 18.4 :经过 (T) 次无交换遗憾动态迭代后,如果成本最小化博弈的每个参与者 (i) 的期望交换遗憾至多为 (\epsilon),设 (\sigma_t = \prod_{i=1}^{k} p_{t}^i) 为第 (t) 次迭代的结果分布,(\sigma = \frac{1}{T} \sum_{t=1}^{T} \sigma_t) 为这些分布的时间平均历史,则 (\sigma) 是近似相关均衡,即对于每个参与者 (i) 和交换函数 (\delta : S_i → S_i),有 (E_{s∼\sigma}[C_i(s)] ≤ E_{s∼\sigma}[C_i(\delta(s_i), s_{-i})] + \epsilon)。
-
无交换遗憾算法的存在性
:
- 定理 18.5(黑盒归约) :如果存在无外部遗憾算法,那么存在无交换遗憾算法。
- 通过结合之前的定理和该归约,可以得出无交换遗憾算法存在。例如,将乘法权重算法代入该归约可得到计算高效的无交换遗憾算法,从而证明相关均衡与粗相关均衡在同样强的意义下是可处理的。
2. 定理 18.5 的证明
-
归约思路
:
- 固定行动集 (A = {1, 2, …, n}),使用 (n) 个不同的无(外部)遗憾算法 (M_1, …, M_n),如 (n) 个乘法权重算法的实例。
- 每个算法 (M_j) 负责防止从行动 (j) 到其他行动的有利偏离。假设每个算法 (M_j) 在时间步 (t) 产生的概率分布仅取决于之前时间步的成本向量 (c_1, …, c_{t - 1})。
-
主算法 (M) 的流程
:
-
对于每个时间步 (t = 1, 2, …, T):
- 从算法 (M_1, …, M_n) 接收行动集 (A) 上的分布 (q_{t}^1, …, q_{t}^n)。
- 计算并输出共识分布 (p_t)。
- 从对手接收成本向量 (c_t)。
- 给每个算法 (M_j) 提供成本向量 (p_t(j) \cdot c_t)。
-
对于每个时间步 (t = 1, 2, …, T):
-
证明过程
:
- 固定成本向量序列 (c_1, …, c_T),主算法的时间平均期望成本为 (\frac{1}{T} \sum_{t=1}^{T} \sum_{i=1}^{n} p_t(i) \cdot c_t(i))。
- 在固定交换函数 (\delta : A → A) 下的时间平均期望成本为 (\frac{1}{T} \sum_{t=1}^{T} \sum_{i=1}^{n} p_t(i) \cdot c_t(\delta(i)))。
- 目标是证明主算法的时间平均期望成本至多为在固定交换函数下的时间平均期望成本加上一个随 (T) 趋于无穷而趋于 0 的项。
- 从算法 (M_j) 的角度看,其感知的时间平均期望成本为 (\frac{1}{T} \sum_{t=1}^{T} \sum_{i=1}^{n} q_{t}^j(i) (p_t(j)c_t(i)))。
- 由于 (M_j) 是无遗憾算法,其感知成本至多为每个固定行动 (k) 的成本加上一个随 (T) 趋于无穷而趋于 0 的项 (R_j)。
- 对所有 (j = 1, 2, …, n) 求和,可得到一个不等式关系。
- 最后,通过选择共识分布 (p_1, …, p_T) 使得主算法的时间平均期望成本表达式与上述不等式中的一个表达式相等。具体来说,将方程 (p_t(i) = \sum_{j=1}^{n} q_{t}^j(i) p_t(j)) 看作定义马尔可夫链的平稳分布的方程。给定时间步 (t) 算法 (M_1, …, M_n) 的分布 (q_{t}^1, …, q_{t}^n),形成马尔可夫链,状态集为 (A),从状态 (j) 到状态 (i) 的转移概率为 (q_{t}^j(i))。概率分布 (p_t) 满足上述方程当且仅当它是该马尔可夫链的平稳分布。至少存在一个这样的分布,并且可以使用特征向量计算高效地计算出来。
3. 两人零和博弈的极小极大定理
-
两人零和博弈的定义
:
- 两人博弈是零和博弈,如果在每个结果中,每个参与者的收益是另一个参与者的负收益。这类博弈是纯粹的竞争博弈。
- 两人零和博弈可以用一个矩阵 (A) 表示,行和列分别对应两个参与者的策略集。矩阵元素 (a_{ij}) 表示行参与者在结果 ((i, j)) 中的收益,列参与者的收益为其负值。
-
例如,石头 - 剪刀 - 布游戏的收益矩阵如下:
| | 石头 | 布 | 剪刀 |
| — | — | — | — |
| 石头 | 0 | -1 | 1 |
| 布 | 1 | 0 | -1 |
| 剪刀 | -1 | 1 | 0 | - 在两人零和博弈中,纯纳什均衡通常不存在,因此分析重点放在混合纳什均衡上。用 (x) 和 (y) 分别表示行和列上的混合策略,行参与者的期望收益为 (\sum_{i=1}^{m} \sum_{j=1}^{n} x_i \cdot y_j \cdot a_{ij} = x^⊤Ay),列参与者的期望收益为其负值。混合纳什均衡是满足 (x^⊤Ay ≥ x^⊤Ay) 对于所有行上的混合策略 (x) 以及 (x^⊤Ay ≤ x^⊤Ay) 对于所有列上的混合策略 (y) 的对 ((\hat{x}, \hat{y}))。
-
极小极大定理
:
- 定理 18.7(极小极大定理) :对于每个两人零和博弈 (A),有 (\max_{x} \left( \min_{y} x^⊤Ay \right) = \min_{y} \left( \max_{x} x^⊤Ay \right))。
- 等式左边表示行参与者先行动,列参与者后行动,双方都进行最优决策;右边则是角色反转的情况。极小极大定理表明,在最优策略下,两种情况下每个参与者的期望收益相同,这个值称为博弈 (A) 的值。
- 极小极大定理等价于每个两人零和博弈至少有一个混合纳什均衡,并且还意味着“混合匹配”性质:如果 ((x_1, y_1)) 和 ((x_2, y_2)) 是同一两人零和博弈的混合纳什均衡,那么 ((x_1, y_2)) 和 ((x_2, y_1)) 也是。
4. 定理 18.7 的证明
-
证明思路
:
- 在两人零和博弈中,先行动总是更不利,所以等式左边至多等于右边。重点证明反向不等式。
- 固定两人零和博弈 (A),其收益在 ([-1, 1]) 范围内,参数 (\epsilon \in (0, 1])。运行无遗憾动态足够多的迭代次数 (T),使得两个参与者的期望(外部)遗憾至多为 (\epsilon)。例如,如果两个参与者都使用乘法权重算法,那么 (T = \frac{4 \ln(\max{m, n})}{\epsilon^2}) 次迭代就足够了。
-
证明过程
:
- 设 (p_1, …, p_T) 和 (q_1, …, q_T) 分别是行和列参与者在无遗憾算法建议下使用的混合策略。
- 定义行参与者的时间平均混合策略 (\hat{x} = \frac{1}{T} \sum_{t=1}^{T} p_t),列参与者的时间平均混合策略 (\hat{y} = \frac{1}{T} \sum_{t=1}^{T} q_t),行参与者的时间平均期望收益 (v = \frac{1}{T} \sum_{t=1}^{T} (p_t)^⊤Aq_t)。
- 从行参与者的角度看,由于其期望遗憾至多为 (\epsilon),对于每个对应固定纯策略 (i) 的向量 (e_i),有 (e_i^⊤A\hat{y} = \frac{1}{T} \sum_{t=1}^{T} e_i^⊤Aq_t ≤ \frac{1}{T} \sum_{t=1}^{T} (p_t)^⊤Aq_t + \epsilon = v + \epsilon)。
- 由于任意行上的混合策略 (x) 只是 (e_i) 的概率分布,根据不等式和线性性质可得 (x^⊤A\hat{y} ≤ v + \epsilon) 对于所有混合策略 (x)。
- 从列参与者的角度进行对称论证,可得 (\hat{x}^⊤Ay ≥ v - \epsilon) 对于所有列上的混合策略 (y)。
- 综合以上不等式,可得 (\max_{x} \left( \min_{y} x^⊤Ay \right) ≥ \min_{y} \hat{x}^⊤Ay ≥ v - \epsilon ≥ \max_{x} x^⊤A\hat{y} - 2\epsilon ≥ \min_{y} \left( \max_{x} x^⊤Ay \right) - 2\epsilon)。
- 取 (\epsilon → 0)(和 (T → ∞))的极限,完成极小极大定理的证明。
总结
- 交换遗憾的概念 :行动序列的交换遗憾衡量了该序列的时间平均成本与事后最佳交换函数下的时间平均成本之差。无交换遗憾算法能保证随着时间跨度趋于无穷,期望交换遗憾趋于 0。通过黑盒归约,从无外部遗憾算法可以构造出无交换遗憾算法,从而证明相关均衡是可处理的。
- 极小极大定理 :在两人零和博弈中,极小极大定理表明无论参与者先行动还是后行动,在最优策略下的期望收益相同。该定理等价于两人零和博弈至少存在一个混合纳什均衡,并且具有“混合匹配”性质。通过无遗憾动态和相关不等式的推导,可以证明该定理。
通过这些研究,我们进一步加深了对博弈论中均衡概念可处理性的理解,为实际应用中的决策和策略制定提供了理论支持。
以下是相关的流程图:
graph TD;
A[开始] --> B[定义相关均衡];
B --> C[引入交换遗憾];
C --> D[证明无交换遗憾算法存在];
D --> E[研究两人零和博弈];
E --> F[阐述极小极大定理];
F --> G[证明极小极大定理];
G --> H[总结结论];
H --> I[结束];
同时,文中涉及的重要定义和公式总结如下:
| 概念 | 定义或公式 |
| — | — |
| 相关均衡 | (E_{s∼\sigma}[C_i(s)] ≤ E_{s∼\sigma}[C_i(\delta(s_i), s_{-i})]) |
| 交换遗憾 | (\frac{1}{T} \left[ \sum_{t=1}^{T} c_t(a_t) - \min_{\delta:A→A} \sum_{t=1}^{T} c_t(\delta(a_t)) \right]) |
| 行参与者期望收益 | (x^⊤Ay = \sum_{i=1}^{m} \sum_{j=1}^{n} x_i \cdot y_j \cdot a_{ij}) |
| 极小极大定理 | (\max_{x} \left( \min_{y} x^⊤Ay \right) = \min_{y} \left( \max_{x} x^⊤Ay \right)) |
交换遗憾与极小极大定理(续)
5. 相关结论的应用与拓展
在实际应用中,这些理论成果有着广泛的用途。例如,在市场竞争中,企业之间的博弈可以看作是一种类似的两人零和博弈。企业需要在不同的策略之间进行选择,以最大化自己的收益。极小极大定理可以帮助企业分析在对手采取最优策略的情况下,自己的最优策略是什么,从而做出更合理的决策。
另外,无交换遗憾算法和相关均衡的概念在多智能体系统中也有重要应用。多个智能体在一个环境中交互时,它们的决策会相互影响。通过使用无交换遗憾算法,智能体可以逐渐收敛到相关均衡,从而实现整个系统的稳定和高效运行。
以下是一些具体的应用场景和分析:
-
拍卖场景
:在拍卖中,买家和卖家之间的博弈可以看作是一种零和博弈。买家希望以最低的价格买到商品,卖家希望以最高的价格卖出商品。极小极大定理可以帮助买家和卖家分析在对方采取最优策略的情况下,自己的最优出价策略是什么。
-
资源分配场景
:在多个用户竞争有限资源的场景中,每个用户都希望最大化自己的资源利用率。通过引入相关均衡的概念,可以设计出一种公平且高效的资源分配机制,使得每个用户的期望收益达到最优。
6. 练习题与问题解析
为了更好地理解上述理论,下面对一些练习题和问题进行解析。
-
Exercise 18.1
:证明对于任意大的 (T),长度为 (T) 的行动序列的交换遗憾可以超过其外部遗憾至少 (T)。
- 思路:通过构造一个特殊的行动序列和成本函数,来证明交换遗憾和外部遗憾之间的差值可以达到至少 (T)。
- 具体构造:假设行动集 (A = {1, 2}),成本函数 (c_t) 满足当 (a_t = 1) 时,(c_t(a_t) = 0);当 (a_t = 2) 时,(c_t(a_t) = t)。行动序列 (a_1 = 2, a_2 = 2, …, a_T = 2)。外部遗憾是与最佳固定行动的成本差,而交换遗憾是与最佳交换函数的成本差。通过计算可以发现,交换遗憾与外部遗憾的差值可以达到至少 (T)。
-
Exercise 18.2
:在定理 18.5 的黑盒归约中,假设每个无遗憾算法 (M_1, …, M_n) 都是乘法权重算法,求所得主算法的交换遗憾作为 (n) 和 (T) 的函数。
- 思路:根据乘法权重算法的性质和黑盒归约的过程,计算主算法的交换遗憾。
- 计算过程:首先,乘法权重算法具有一定的遗憾保证。在黑盒归约中,主算法的交换遗憾与各个无遗憾算法的遗憾以及归约过程中的参数有关。通过对归约过程的详细分析,可以得到主算法的交换遗憾表达式。
-
Exercise 18.3
:证明对于两人零和博弈的矩阵 (A),一对混合策略 (\hat{x}, \hat{y}) 构成混合纳什均衡当且仅当它是极小极大对。
- 思路:分别证明充分性和必要性。
- 充分性证明:假设 (\hat{x}, \hat{y}) 是极小极大对,即 (\hat{x} \in \arg\max_{x} \left( \min_{y} x^⊤Ay \right)) 且 (\hat{y} \in \arg\min_{y} \left( \max_{x} x^⊤Ay \right))。根据极小极大定理,(\max_{x} \left( \min_{y} x^⊤Ay \right) = \min_{y} \left( \max_{x} x^⊤Ay \right))。对于任意的混合策略 (x) 和 (y),可以证明 (\hat{x}^⊤A\hat{y} ≥ x^⊤A\hat{y}) 且 (\hat{x}^⊤A\hat{y} ≤ \hat{x}^⊤Ay),从而说明 (\hat{x}, \hat{y}) 构成混合纳什均衡。
- 必要性证明:假设 (\hat{x}, \hat{y}) 构成混合纳什均衡,即对于所有的混合策略 (x) 和 (y),有 (\hat{x}^⊤A\hat{y} ≥ x^⊤A\hat{y}) 且 (\hat{x}^⊤A\hat{y} ≤ \hat{x}^⊤Ay)。可以推出 (\hat{x}) 是在最小化 (y) 下的最大值策略,(\hat{y}) 是在最大化 (x) 下的最小值策略,即 (\hat{x}, \hat{y}) 是极小极大对。
-
Exercise 18.4
:证明如果 ((x_1, y_1)) 和 ((x_2, y_2)) 是两人零和博弈的混合纳什均衡,那么 ((x_1, y_2)) 和 ((x_2, y_1)) 也是。
- 思路:根据混合纳什均衡的定义和两人零和博弈的性质进行证明。
- 证明过程:因为 ((x_1, y_1)) 和 ((x_2, y_2)) 是混合纳什均衡,所以有 (x_1^⊤Ay_1 ≥ x^⊤Ay_1) 对于所有 (x),(x_1^⊤Ay_1 ≤ x_1^⊤Ay) 对于所有 (y),(x_2^⊤Ay_2 ≥ x^⊤Ay_2) 对于所有 (x),(x_2^⊤Ay_2 ≤ x_2^⊤Ay) 对于所有 (y)。通过对 ((x_1, y_2)) 和 ((x_2, y_1)) 进行分析,可以证明它们也满足混合纳什均衡的定义。
-
Exercise 18.5
:判断两人常数和博弈中极小极大定理是否成立。
- 思路:将两人常数和博弈转化为两人零和博弈的形式,然后分析极小极大定理是否适用。
- 转化过程:设两人常数和博弈的收益之和为常数 (a),即 (u_1(s) + u_2(s) = a) 对于所有结果 (s)。可以通过令 (v_1(s) = u_1(s) - \frac{a}{2}) 和 (v_2(s) = u_2(s) - \frac{a}{2}),将其转化为两人零和博弈。然后根据两人零和博弈的极小极大定理进行判断。
-
Exercise 18.6
:证明在自然意义下,三人零和博弈包含任意两人博弈作为特殊情况。
- 思路:构造一种将两人博弈嵌入到三人零和博弈中的方法,从而证明三人零和博弈包含任意两人博弈作为特殊情况。
- 构造方法:假设两人博弈的收益矩阵为 (A)。在三人零和博弈中,让其中一个参与者的收益始终为 0,另外两个参与者的收益与两人博弈中的收益相同,并且满足三人收益之和为 0。这样就将两人博弈嵌入到了三人零和博弈中。
7. 问题探讨
-
Problem 18.1
:展示一个(非零和)两人博弈,其中无遗憾动态产生的联合行动的时间平均历史不一定收敛到混合纳什均衡。
- 思路:构造一个非零和两人博弈的例子,通过分析无遗憾动态的过程,说明其时间平均历史不一定收敛到混合纳什均衡。
-
具体例子:考虑一个简单的非零和两人博弈,其收益矩阵如下:
| | (A) | (B) |
| — | — | — |
| (A) | ((1, 1)) | ((0, 0)) |
| (B) | ((0, 0)) | ((2, 2)) | - 分析过程:在这个博弈中,无遗憾动态可能会导致参与者在两种策略之间不断切换,使得时间平均历史无法收敛到混合纳什均衡。
-
Problem 18.2
:固定两人零和博弈 (A),收益在 ([-1, 1]) 范围内,参数 (\epsilon \in (0, 1])。在每个时间步 (t = 1, 2, …, T),行参与者先行动,使用乘法权重算法选择混合策略 (p_t),列参与者后行动,选择对 (p_t) 的最佳响应 (q_t)。假设 (T ≥ \frac{4 \ln m}{\epsilon^2}),其中 (m) 是矩阵 (A) 的行数。
-
(a)
从行参与者的角度证明行参与者的时间平均期望收益至少为 (\min_{y} \left( \max_{x} x^⊤Ay \right) - \epsilon)。
- 思路:利用乘法权重算法的遗憾保证和博弈的性质进行证明。
- 证明过程:根据乘法权重算法的性质,行参与者的期望遗憾至多为 (\epsilon)。通过对时间平均期望收益的表达式进行分析和推导,可以得到行参与者的时间平均期望收益至少为 (\min_{y} \left( \max_{x} x^⊤Ay \right) - \epsilon)。
-
(b)
从列参与者的角度证明行参与者的时间平均期望收益至多为 (\max_{x} \left( \min_{y} x^⊤Ay \right))。
- 思路:列参与者选择对行参与者策略的最佳响应,根据博弈的最优性和期望收益的定义进行证明。
- 证明过程:因为列参与者选择最佳响应,所以行参与者的收益会受到限制。通过对列参与者的最佳响应策略和行参与者的期望收益进行分析,可以证明行参与者的时间平均期望收益至多为 (\max_{x} \left( \min_{y} x^⊤Ay \right))。
-
(c)
利用 (a) 和 (b) 给出定理 18.7 的另一种证明。
- 思路:结合 (a) 和 (b) 的结论,通过不等式的推导证明极小极大定理。
- 推导过程:由 (a) 可知行参与者的时间平均期望收益至少为 (\min_{y} \left( \max_{x} x^⊤Ay \right) - \epsilon),由 (b) 可知行参与者的时间平均期望收益至多为 (\max_{x} \left( \min_{y} x^⊤Ay \right))。当 (\epsilon → 0) 时,可以得到 (\max_{x} \left( \min_{y} x^⊤Ay \right) = \min_{y} \left( \max_{x} x^⊤Ay \right)),即证明了定理 18.7。
-
(a)
从行参与者的角度证明行参与者的时间平均期望收益至少为 (\min_{y} \left( \max_{x} x^⊤Ay \right) - \epsilon)。
-
Problem 18.3
:考虑一个有 (k) 个参与者的成本最小化博弈,每个参与者最多有 (m) 个策略。
-
(a)
展示一个至多 (km) 个额外不等式的系统,每个不等式关于 (z) 是线性的,使得博弈的粗相关均衡恰好是满足所有这些不等式的分布。
- 思路:根据粗相关均衡的定义,构造出相应的线性不等式系统。
- 构造过程:粗相关均衡要求对于每个参与者和每个固定行动,其期望成本不大于切换到其他行动的期望成本。通过将这些条件转化为线性不等式,可以得到所需的系统。
-
(b)
展示一个至多 (km^2) 个额外不等式的系统,每个不等式关于 (z) 是线性的,使得博弈的相关均衡恰好是满足所有这些不等式的分布。
- 思路:类似地,根据相关均衡的定义,构造出相应的线性不等式系统。
- 构造过程:相关均衡要求对于每个参与者和每个交换函数,其期望成本不大于切换后的期望成本。通过将这些条件转化为线性不等式,可以得到所需的系统。
-
(a)
展示一个至多 (km) 个额外不等式的系统,每个不等式关于 (z) 是线性的,使得博弈的粗相关均衡恰好是满足所有这些不等式的分布。
-
Problem 18.4
:证明两人零和博弈的混合纳什均衡可以被刻画为一对线性规划的最优解。
- 思路:根据混合纳什均衡的定义和线性规划的性质,将混合纳什均衡的条件转化为线性规划问题。
- 转化过程:混合纳什均衡要求行参与者和列参与者的策略满足一定的最优性条件。通过将这些条件表示为线性不等式和目标函数,可以将混合纳什均衡问题转化为一对线性规划问题。
总结
本文深入探讨了博弈论中的交换遗憾和极小极大定理。通过引入交换遗憾的概念,证明了相关均衡的可处理性。同时,在两人零和博弈中,极小极大定理揭示了参与者在不同行动顺序下的最优收益关系。通过对练习题和问题的解析,进一步加深了对这些理论的理解和应用。这些理论成果在市场竞争、多智能体系统等领域有着广泛的应用前景,为实际决策提供了重要的理论支持。
以下是相关的流程图:
graph TD;
A[应用场景分析] --> B[练习题解析];
B --> C[问题探讨];
C --> D[总结结论];
重要知识点总结如下:
| 主题 | 关键内容 |
| — | — |
| 应用场景 | 拍卖、资源分配等多领域 |
| 练习题 | 涉及交换遗憾、极小极大定理等概念的证明和计算 |
| 问题探讨 | 非零和博弈、线性规划刻画等问题 |
超级会员免费看
63

被折叠的 条评论
为什么被折叠?



