16、最佳响应动态:博弈中的收敛机制

最佳响应动态:博弈中的收敛机制

在博弈论中,我们常常关注战略参与者是否能达到均衡状态,以及哪些学习算法能快速收敛到均衡。为了探讨这些问题,我们需要明确动态机制,即描述参与者在非均衡状态下的行为方式。本文将聚焦于“最佳响应动态”及其变体,研究它们在不同类型博弈中的收敛情况。

1. 最佳响应动态基础

最佳响应动态是一种简单直接的程序,参与者通过连续的单方面偏离来寻找博弈的纯纳什均衡(PNE)。具体步骤如下:

最佳响应动态
当当前结果 s 不是 PNE 时:
    选择任意一个参与者 i 和该参与者的任意一个有益偏离 s′i,
    并将结果更新为 (s′i, s−i)

这里,偏离的参与者 i 和有益偏离 s′i 可能有多种选择,我们暂时不做具体规定,后续会根据需要进行细化。初始结果可以是任意的。

最佳响应动态可以形象地看作是在一个图中的游走,图的顶点对应策略组合,出边对应有益偏离。PNE 恰好是图中没有出边的顶点。因此,最佳响应动态只能在 PNE 处停止,在没有 PNE 的博弈中会陷入循环。即使在存在 PNE 的博弈中,它也可能循环(如练习 16.1 所示)。

最佳响应动态非常适合潜在博弈。潜在博弈存在一个实值函数 Φ,对于任何参与者的单方面偏离,潜在函数值的变化等于偏离者成本的变化。路由博弈、选址博弈和网络成本分摊博弈都是潜在博弈的例子。

下面是一个关于最佳响应动态在潜在博弈中收敛性的命题:
命题 16.1(最佳响应动态的收敛性) :在潜在博弈中,从任意初始结果开始,最佳响应动态会收敛到一个 PNE。
证明 :在最佳响应动态的每一次迭代中,偏离者的成本严格下降。根据潜在函数的性质,潜在函数值也严格下降。由于博弈是有限的,所以不会出现循环,最终最佳响应动态必然会停止,且停止点一定是 PNE。

这个命题表明,在潜在博弈中,参与者有自然的方式达到 PNE。但收敛速度如何呢?一种强收敛概念是在较少的迭代次数内收敛到 PNE。例如,当潜在函数 Φ 只取少量不同值时就会出现这种情况。然而,一般情况下,最佳响应动态可能会非常缓慢地降低潜在函数值,需要指数级(参与者数量 k 的指数)的迭代次数才能收敛。这促使我们研究更宽松的收敛定义。

2. 近似 PNE 与 ǫ - 最佳响应动态

我们的第二个“快速收敛”概念是近似 PNE。
定义 16.2(ǫ - 纯纳什均衡) :对于 ǫ ∈ [0, 1],成本最小化博弈的结果 s 是一个 ǫ - 纯纳什均衡(ǫ - PNE),如果对于每个参与者 i 和偏离 s′i ∈ Si,有:
[C_i(s′ i, s {-i}) \geq (1 - ǫ) \cdot C_i(s)]
接下来,我们研究 ǫ - 最佳响应动态,其中只允许能带来显著改进的移动。

ǫ - 最佳响应动态
当当前结果 s 不是 ǫ - PNE 时:
    选择任意一个有 ǫ - 移动(即满足 C_i(s′_i, s_{-i}) < (1 - ǫ)C_i(s) 的偏离 s′i)的参与者 i,
    并选择该参与者的任意一个这样的移动,
    然后将结果更新为 (s′i, s−i)

ǫ - 最佳响应动态只能在 ǫ - PNE 处停止,并且在每个潜在博弈中最终都会收敛。

我们来看一个特殊的原子自私路由博弈子类,其中一种特殊的 ǫ - 最佳响应动态变体能够快速收敛。

ǫ - 最佳响应动态(最大增益)
当当前结果 s 不是 ǫ - PNE 时:
    在所有有 ǫ - 移动的参与者中,选择能获得最大成本下降(C_i(s) - min_{ˆs_i∈S_i} C_i(ˆs_i, s_{-i}))的参与者 i,
    并选择 s′i 作为对 s−i 的最佳响应,
    然后将结果更新为 (s′i, s−i)

定理 16.3(收敛到 ǫ - PNE) :考虑一个原子自私路由博弈,满足以下条件:
1. 所有参与者有共同的起点和终点。
2. 对于 α ≥ 1,每条边 e 的成本函数 ce 满足 α - 有界跳跃条件,即对于每个边 e 和正整数 x,ce(x + 1) ∈ [ce(x), α · ce(x)]。
那么,最大增益变体的 ǫ - 最佳响应动态最多在 (\frac{kα}{ǫ} \ln \frac{Φ(s_0)}{Φ_{min}}) 次迭代内收敛到一个 ǫ - PNE,其中 s0 是初始结果,Φmin = min_s Φ(s)。

这个定理的类似结论适用于许多不同的 ǫ - 最佳响应动态变体,唯一的基本要求是每个参与者都有足够的机会移动。即使我们不认为参与者会实际遵循这些变体之一,但简单自然的学习程序能在这些博弈中快速收敛到近似 PNE,这为研究它们提供了有力的理由。然而,如果定理 16.3 的任何一个假设被去掉,所有 ǫ - 最佳响应动态变体都可能需要指数级(k 的指数)的迭代次数才能收敛。

下面是定理 16.3 证明的流程图:

graph TD;
    A[开始] --> B[选择有高成本的参与者];
    B --> C{参与者移动};
    C -->|是| D[计算成本和潜在函数变化];
    D --> E[判断是否满足收敛条件];
    E -->|是| F[结束,收敛到 ǫ - PNE];
    E -->|否| B;
    C -->|否| B;
3. 定理 16.3 的证明

证明定理 16.3 的计划是定量加强命题 16.1 的证明,表明最大增益 ǫ - 最佳响应动态的每一次迭代都会大幅降低潜在函数值。我们需要两个引理。
引理 16.4 :在每个结果 s 中,存在一个参与者 i,其成本 (C_i(s) \geq \frac{Φ(s)}{k})。
证明 :在原子自私路由博弈中,边成本函数是非递减的,潜在函数只能低估结果的成本。通过对潜在函数和目标函数的定义进行推导,可以得到:
[\Phi(s) = \sum_{e \in E} \sum_{i = 1}^{f_e} c_e(i) \leq \sum_{e \in E} f_e \cdot c_e(f_e) = \sum_{i = 1}^{k} C_i(s)]
其中 (f_e) 表示在结果 s 中选择包含边 e 的路径的参与者数量。由于必然有一个参与者的成本至少等于平均成本,所以对于每个结果 s,有 (\max_{i = 1}^{k} C_i(s) \geq \frac{\sum_{i = 1}^{k} C_i(s)}{k} \geq \frac{\Phi(s)}{k})。

引理 16.5 :假设在结果 s 中,最大增益 ǫ - 最佳响应动态选择参与者 i 进行移动,并采取 ǫ - 移动 s′i。那么对于每个其他参与者 j,有:
[C_i(s) - C_i(s′ i, s {-i}) \geq \frac{ǫ}{α} C_j(s)]
证明 :固定参与者 j。如果 j 在 s 中有 ǫ - 移动 s′j,根据定义,这将使参与者 j 的成本至少降低 ǫCj(s),那么有:
[C_i(s) - C_i(s′ i, s {-i}) \geq C_j(s) - C_j(s′ j, s {-j}) \geq ǫC_j(s)]
更复杂的情况是当参与者 j 没有 ǫ - 移动可用时。由于所有参与者有相同的可用策略集,我们可以通过分析结果 (s′i, s−i) 和 (s′i, s−j) 的差异,利用 α - 有界跳跃假设,得到 (C_j(s′ i, s {-j}) \leq α \cdot C_i(s′ i, s {-i}))。结合其他不等式,可以推导出所需的结论。

基于这两个引理,我们可以证明定理 16.3:
在最大增益 ǫ - 最佳响应动态的一次迭代中,参与者 i 进行 ǫ - 移动到策略 s′i,有:
[\Phi(s) - \Phi(s′ i, s {-i}) = C_i(s) - C_i(s′ i, s {-i}) \geq \frac{ǫ}{α} \cdot \max_{j = 1}^{k} C_j(s) \geq \frac{ǫ}{αk} \cdot \Phi(s)]
这表明最大增益 ǫ - 最佳响应动态的每一次迭代都会使潜在函数至少降低一个因子 ((1 - \frac{ǫ}{αk}))。因此,每 (\frac{kα}{ǫ}) 次迭代会使潜在函数至少降低一个因子 e(约为 2.718)。由于潜在函数从值 Φ(s0) 开始,且不能低于 Φmin,所以最大增益 ǫ - 最佳响应动态最多在 (\frac{kα}{ǫ} \ln \frac{Φ(s_0)}{Φ_{min}}) 次迭代内收敛。

4. 平滑潜在博弈中的低成本结果

我们的最后一个“快速收敛”概念是快速达到目标函数值与参与者已经收敛到近似 PNE 时一样好的结果。这种保证并不意味着收敛到近似 PNE,但仍然很有吸引力。当进行均衡分析的主要原因是无政府状态价格界时,这种较弱的保证是收敛到近似均衡的无成本替代方案。

下面是一种最佳响应动态的变体:

最佳响应动态(最大增益)
当当前结果 s 不是 PNE 时:
    在所有有有益偏离的参与者中,选择能获得最大成本下降(C_i(s) - min_{ˆs_i∈S_i} C_i(ˆs_i, s_{-i}))的参与者 i,
    并选择 s′i 作为对 s−i 的最佳响应,
    然后将结果更新为 (s′i, s−i)

定理 16.6(收敛到低成本结果) :考虑一个 (λ, µ) - 平滑的成本最小化博弈,其中 µ < 1,且有一个正的潜在函数 Φ,满足对于每个结果 s,(\Phi(s) \leq cost(s))。设 (s_0, \ldots, s_T) 是由最大增益最佳响应动态生成的结果序列,(s^ ) 是最小成本结果,(\eta \in (0, 1)) 是一个参数。那么,除了最多 (\frac{k}{\eta(1 - \mu)} \ln \frac{\Phi(s_0)}{\Phi_{min}}) 个结果 (s_t) 外,其他结果都满足:
[cost(s_t) \leq \left(\frac{\lambda}{(1 - \mu)(1 - \eta)}\right) \cdot cost(s^
)]
其中 (\Phi_{min} = \min_s \Phi(s)),k 是参与者的数量。

证明 :固定 (\eta \in (0, 1))。计划是证明如果 (s_t) 是一个“坏状态”(即不满足上述保证的状态),那么最大增益最佳响应动态的下一次迭代会显著降低潜在函数值。这将得到坏状态数量的所需界。
对于结果 (s_t),定义 (\delta_i(s_t) = C_i(s_t) - C_i(s^ i, s {t - i})) 为参与者 i 通过将策略切换到 (s^ i) 所经历的成本降低,(\Delta(s_t) = \sum {i = 1}^{k} \delta_i(s_t))。当 (s_t) 是 PNE 时,(\delta_i(s_t)) 是非正的,但一般情况下它可以是正的或负的。利用 (λ, µ) - 平滑成本最小化博弈的定义性质,可以推导出:
[cost(s_t) \leq \frac{\lambda}{1 - \mu} \cdot cost(s^ ) + \frac{1}{1 - \mu} \Delta(s_t)]
这意味着一个结果是坏状态仅当参与者通过单方面偏离到 (s^
) 能获得的收益 (\Delta(s_t)) 很大。
在坏状态 (s_t) 中,利用上述不等式和 (\Phi(s) \leq cost(s)) 的假设,可以得到:
[\Delta(s_t) \geq \eta(1 - \mu) cost(s_t) \geq \eta(1 - \mu) \Phi(s_t)]
如果参与者 i 在结果 (s_t) 中将策略切换到最佳响应,她的成本至少降低 (\delta_i(s_t))。在坏状态 (s_t) 中,最大增益最佳响应动态选择的参与者的成本至少降低 (\frac{\eta(1 - \mu)}{k} \Phi(s_t))。由于 Φ 是潜在函数,满足相应性质,所以当 (s_t) 是坏状态时,有:
[\Phi(s_{t + 1}) \leq \Phi(s_t) - \max_{i = 1}^{k} \delta_i(s_t) \leq \left(1 - \frac{\eta(1 - \mu)}{k}\right) \cdot \Phi(s_t)]
结合潜在函数在每次迭代中只能降低的事实,这意味着每 (\frac{k}{\eta(1 - \mu)}) 个坏状态会使潜在函数降低一个因子 e。这得到了坏状态总数的上界 (\frac{k}{\eta(1 - \mu)} \ln \frac{\Phi(s_0)}{\Phi_{min}})。

总结
  • 在最佳响应动态的每次迭代中,一个参与者单方面偏离到更好的策略。
  • 最佳响应动态在每个潜在博弈中必然收敛到一个 PNE。
  • 几种 ǫ - 最佳响应动态变体,其中只允许能带来显著改进的移动,在所有参与者有相同起点和终点的原子自私路由博弈中能快速收敛到近似 PNE。
  • 在 (λ, µ) - 平滑博弈中,几种最佳响应动态变体能够快速达到目标函数值几乎与 PNE 一样好的结果。

这些结果为研究博弈中的收敛机制提供了重要的理论基础,有助于我们理解战略参与者如何在不同类型的博弈中达到均衡或近似均衡状态。

最佳响应动态:博弈中的收敛机制

5. 相关练习与问题探讨

为了更好地理解和应用上述理论,下面我们来看看相关的练习和问题。

练习部分
  • 练习 16.1 :需要找出一个存在 PNE 的博弈以及一个初始结果,使得最佳响应动态会永远循环。这有助于我们认识到即使博弈存在 PNE,最佳响应动态也不一定能顺利收敛。
  • 练习 16.2 :考虑一个有 m 条边且成本函数取值在 {1, 2, 3, …, H} 的原子自私路由博弈,证明最佳响应动态最多在 mH 次迭代内收敛到 PNE。这体现了在特定条件下,最佳响应动态的收敛速度可以得到保证。
  • 练习 16.3 :对于广义序数潜在博弈(存在广义序数潜在函数 Ψ,当 (C_i(s′ i, s {-i}) < C_i(s)) 时,(\Psi(s′ i, s {-i}) < \Psi(s))),将命题 16.1 进行扩展。这加深了我们对不同类型潜在博弈中最佳响应动态收敛性的理解。
  • 练习 16.4 :证明如果对于每个初始结果和每次迭代中的有益单方面偏离的选择,最佳响应动态总是收敛到 PNE,那么该博弈存在广义序数潜在函数。这是对练习 16.3 的逆向思考,进一步揭示了最佳响应动态收敛性与潜在函数之间的关系。
问题部分
  • 问题 16.1 :考虑一类成本最小化博弈,每个参与者 i 有正权重 (w_i),并选择 m 个相同机器之一来最小化其负载。研究最大权重最佳响应动态(在所有有有益偏离的参与者中,选择权重最大的参与者 i 并进行最佳响应更新),证明它最多在 k 次迭代内收敛到 PNE。这展示了在特定限制下最佳响应动态的高效收敛性。
  • 问题 16.2 :研究 ǫ - 最佳响应动态(最大相对增益),即在所有有 ǫ - 移动的参与者中,选择能获得最大相对成本下降 (\frac{C_i(s) - \min_{\hat{s} i\in S_i} C_i(\hat{s}_i, s {-i})}{C_i(s)}) 的参与者 i 进行更新。证明定理 16.3 的迭代界也适用于这种变体。这说明不同的 ǫ - 最佳响应动态变体在收敛性上具有一定的共性。
  • 问题 16.3 :考虑一个变体的成本最小化博弈,每个参与者权重为 1,但有不同的个体成本函数。
    • (a) 情况 :证明当只有两台机器时,最佳响应动态收敛到 PNE。
    • (b) 情况 :证明当有三台机器时,最佳响应动态不一定收敛。
    • (c) 情况 :证明无论有多少台机器,PNE 总是存在。这一系列问题让我们深入了解机器数量对最佳响应动态收敛性和 PNE 存在性的影响。
6. 总结与展望

通过前面的讨论,我们对最佳响应动态及其变体在不同类型博弈中的表现有了全面的认识。下面用表格总结一下主要结论:
| 动态类型 | 适用博弈类型 | 收敛情况 |
| ---- | ---- | ---- |
| 最佳响应动态 | 潜在博弈 | 从任意初始结果收敛到 PNE,但一般收敛速度可能较慢 |
| ǫ - 最佳响应动态(最大增益) | 满足特定条件的原子自私路由博弈 | 最多在 (\frac{kα}{ǫ} \ln \frac{Φ(s_0)}{Φ_{min}}) 次迭代内收敛到 ǫ - PNE |
| 最佳响应动态(最大增益) | (λ, µ) - 平滑成本最小化博弈 | 除少数结果外,能快速达到低成本结果 |

这些结论为我们分析战略参与者在博弈中的行为提供了有力的工具。然而,实际的博弈情况往往更加复杂,未来可以从以下几个方向进行进一步的研究:
- 更复杂的博弈模型 :考虑引入更多的因素,如参与者的不完全信息、动态变化的环境等,研究最佳响应动态在这些更复杂模型中的表现。
- 算法优化 :探索如何进一步优化最佳响应动态及其变体,以提高收敛速度和效率。
- 实际应用 :将这些理论成果应用到实际的经济、社会和工程问题中,验证其有效性和实用性。

下面是一个总结整个研究过程的 mermaid 流程图:

graph LR;
    A[开始研究博弈收敛问题] --> B[定义最佳响应动态及变体];
    B --> C[分析不同博弈类型适用性];
    C --> D[证明收敛性及收敛速度];
    D --> E[通过练习和问题巩固理解];
    E --> F[总结结论并展望未来研究方向];

总之,最佳响应动态在博弈论中是一个非常重要的概念,它为我们理解战略参与者如何达到均衡提供了一种有效的方法。通过不断深入研究和拓展,我们有望在更多领域中应用这些理论,解决实际问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值