17、无悔动态：在线决策与均衡收敛

最新推荐文章于 2025-11-26 22:17:37 发布

week9

最新推荐文章于 2025-11-26 22:17:37 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏：算法博弈论：从理论到实践文章标签：在线决策无悔算法乘法权重算法

本文链接：https://blog.youkuaiyun.com/week9/article/details/149792422

算法博弈论：从理论到实践专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

无悔动态：在线决策与均衡收敛

1. 在线决策基础

在线决策问题涉及一个决策者和一个对手。决策者提前知晓一组包含 $n \geq 2$ 个行动的集合 $A$ 以及时间范围 $T \geq 1$。例如，$A$ 可以代表不同的投资策略，或者家与工作地点之间的不同驾驶路线。

在每个时间步 $t = 1, 2, \ldots, T$ 中，具体流程如下：
1. 决策者选择一个关于行动集合 $A$ 的概率分布 $p_t$。
2. 对手选择一个成本向量 $c_t : A \to [-1, 1]$。
3. 根据分布 $p_t$ 选择一个行动 $a_t$，决策者承担成本 $c_t(a_t)$。
4. 决策者了解整个成本向量 $c_t$。

一个在线决策算法会根据前 $t - 1$ 个时间步的成本向量 $c_1, \ldots, c_{t - 1}$ 和已实现的行动 $a_1, \ldots, a_{t - 1}$ 来确定每个时间步 $t$ 的概率分布 $p_t$。对手则根据算法在前 $t$ 天使用的概率分布 $p_1, \ldots, p_t$ 和前 $t - 1$ 天已实现的行动 $a_1, \ldots, a_{t - 1}$ 来确定每个时间步 $t$ 的成本向量 $c_t$。我们通过算法相对于最坏情况对手的预期成本（在已实现的行动上）来评估其性能，并且允许负成本，负成本可用于建模收益。

下面通过几个例子来明确在线决策算法的一些限制：
- 例 17.1：与最佳行动序列比较 ：假设 $A = {1, 2}$，对于任意一个在线决策算法，对手在每天 $t$ 选择成本向量 $c_t$ 的方式如下：如果算法选择的分布 $p_t$ 使得行动 1 的概率至少为 $\frac{1}{2}$，则 $c_t$ 设为向量 $(1, 0)$；否则，对手将 $c_t$ 设为 $(0, 1)$。这种情况下，算法的预期成本至少为 $\frac{T}{2}$，而事后看来最佳行动序列的成本为 0。这表明追求与事后最佳行动序列成本接近是不现实的，因此我们将基准从 $\sum_{t = 1}^{T} \min_{a \in A} c_t(a)$ 改为 $\min_{a \in A} \sum_{t = 1}^{T} c_t(a)$。
- 定义 17.2：后悔值 ：固定成本向量 $c_1, \ldots, c_T$，行动序列 $a_1, \ldots, a_T$ 的后悔值定义为：
[
\frac{1}{T} \left[ \sum_{t = 1}^{T} c_t(a_t) - \min_{a \in A} \sum_{t = 1}^{T} c_t(a) \right]
]
这个量有时也被称为外部后悔值。
- 定义 17.3：无悔算法 ：一个在线决策算法 $A$ 是无悔的，如果对于每一个 $\epsilon > 0$，存在一个足够大的时间范围 $T = T(\epsilon)$，使得对于算法 $A$ 的每一个对手，在行动实现的期望下，后悔值（上述定义）至多为 $\epsilon$。

2. 一些常见算法的分析

跟随领导者算法（FTL） ：这是一种自然的在线决策算法，在时间步 $t$ 选择到目前为止累积成本 $\sum_{u = 1}^{t - 1} c_u(a)$ 最小的行动 $a$。然而，它并不是一个无悔算法。例如，对于一个确定性的在线决策算法，在每个时间步 $t$ 它会确定一个单一的行动 $a_t$。对手可以将行动 $a_t$ 的成本设为 1，其他行动的成本设为 0。这样，算法的成本为 $T$，而事后最佳行动的成本至多为 $\frac{T}{n}$。即使只有 2 个行动，对于任意大的 $T$，该算法的最坏情况后悔值至少为 $\frac{1}{2}$。这表明随机化对于实现无悔是必要的。
随机算法的后悔值下限 ：假设存在 $n = 2$ 个行动，每个成本向量 $c_t$ 独立且等可能地为 $(1, 0)$ 或 $(0, 1)$。无论在线决策算法多么聪明或愚蠢，在这种随机选择成本向量的情况下，它在每个时间步的预期成本恰好为 $\frac{1}{2}$，预期累积成本为 $\frac{T}{2}$。而事后最佳固定行动的预期累积成本仅为 $\frac{T}{2} - b\sqrt{T}$，其中 $b$ 是一个与 $T$ 无关的常数。这意味着对于一个在线决策算法，其预期后悔值不能比 $b\sqrt{\frac{\ln n}{T}}$ 更快地趋近于 0，其中 $b > 0$ 是一个与 $n$ 和 $T$ 无关的常数。

3. 乘法权重算法

算法原理 ：乘法权重（MW）算法是一种重要的无悔算法，它遵循两个设计原则：
1. 行动的过去表现应指导每个时间步选择哪个行动，选择一个行动的概率应随着其累积成本的增加而减小。
2. 选择表现不佳行动的概率应以指数速率减小。

算法具体步骤如下：

Multiplicative Weights (MW) Algorithm
initialize w1(a) = 1 for every a ∈ A
for each time step t = 1, 2, ..., T do
    use the distribution pt = wt/Γt over actions,
        where Γt = ∑a∈A wt(a) is the sum of the weights
    given the cost vector ct, for every action a ∈ A
        use the formula wt+1(a) = wt(a) · (1 - ηct(a)) to update its weight

其中，参数 $\eta$（有时称为“学习率”）介于 0 和 $\frac{1}{2}$ 之间，在定理 17.6 的证明末尾根据 $n$ 和 $T$ 来选择。当 $\eta$ 接近 0 时，分布 $p_t$ 接近均匀分布，鼓励探索；当 $\eta$ 趋近于 1 时，分布 $p_t$ 越来越倾向于到目前为止累积成本最小的行动，鼓励利用。

定理 17.6：无悔算法存在性 ：对于每个包含 $n$ 个行动的集合 $A$ 和时间范围 $T \geq 4 \ln n$，存在一个在线决策算法，对于每个对手，其预期后悔值至多为 $2\sqrt{\frac{\ln n}{T}}$。
推论 17.7：对数步数足够 ：对于每个 $\epsilon \in (0, 1]$，包含 $n$ 个行动的集合 $A$ 和时间范围 $T \geq \frac{4 \ln n}{\epsilon^2}$，存在一个在线决策算法，对于每个对手，其预期后悔值至多为 $\epsilon$。

4. 定理 17.6 的证明

对手类型 ：在在线决策算法的定义中，对手可以分为自适应对手和无感知对手。自适应对手的成本向量 $c_t$ 可以依赖于前 $t - 1$ 个时间步发生的情况；而无感知对手会在任何行动实现之前提前指定整个成本向量序列 $c_1, \ldots, c_T$。对于 MW 算法，我们只需要考虑无感知对手，因为 MW 算法的行为与已实现的行动无关，每个分布 $p_t$ 是 $c_1, \ldots, c_{t - 1}$ 的确定性函数。
分析过程 ：
1. 第一步 ：设 $\nu_t$ 表示 MW 算法在时间步 $t$ 的预期成本，即 $\nu_t = \sum_{a \in A} p_t(a) \cdot c_t(a) = \sum_{a \in A} \frac{w_t(a)}{\Gamma_t} \cdot c_t(a)$。通过推导可得 $\Gamma_{t + 1} = \sum_{a \in A} w_{t + 1}(a) = \sum_{a \in A} w_t(a) \cdot (1 - \eta c_t(a)) = \Gamma_t(1 - \eta \nu_t)$。利用不等式 $1 + x \leq e^x$ 对所有实值 $x$ 成立，可得 $\Gamma_{t + 1} \leq \Gamma_t \cdot e^{-\eta \nu_t}$，进而有 $\Gamma_{T + 1} \leq \Gamma_1 \prod_{t = 1}^{T} e^{-\eta \nu_t} = n \cdot e^{-\eta \sum_{t = 1}^{T} \nu_t}$。
2. 第二步 ：设 $OPT$ 表示成本向量序列中最佳固定行动 $a^ $ 的累积成本 $\sum_{t = 1}^{T} c_t(a^ )$。由于权重始终是非负的，所以 $\Gamma_{T + 1} \geq w_{T + 1}(a^ ) = \prod_{t = 1}^{T} (1 - \eta c_t(a^ ))$。通过泰勒展开 $\ln(1 - x) = -x - \frac{x^2}{2} - \frac{x^3}{3} - \frac{x^4}{4} - \cdots$，当 $|x| \leq \frac{1}{2}$ 时，可得到 $\ln(1 - x) \geq -x - x^2$，即 $1 - x \geq e^{-x - x^2}$。因为 $\eta \leq \frac{1}{2}$ 且 $|c_t(a^ )| \leq 1$ 对于每个 $t$ 成立，所以 $\Gamma_{T + 1} \geq \prod_{t = 1}^{T} e^{-\eta c_t(a^ ) - \eta^2 c_t(a^*)^2} \geq e^{-\eta OPT - \eta^2 T}$。

通过上述两个步骤，我们得到 $n \cdot e^{-\eta \sum_{t = 1}^{T} \nu_t} \geq \Gamma_{T + 1} \geq e^{-\eta OPT - \eta^2 T}$。对两边取自然对数并除以 $-\eta$，可得 $\sum_{t = 1}^{T} \nu_t \leq OPT + \eta T + \frac{\ln n}{\eta}$。为了平衡两个误差项，我们选择 $\eta = \sqrt{\frac{\ln n}{T}}$。由于 $T \geq 4 \ln n$，所以 $\eta \leq \frac{1}{2}$ 满足要求。此时，MW 算法的累积预期成本至多比最佳固定行动的累积成本多 $2\sqrt{T \ln n}$，从而完成了定理 17.6 的证明。

以下是整个过程的 mermaid 流程图：

graph TD;
    A[初始化权重 w1(a) = 1, a ∈ A] --> B[时间步 t = 1 到 T];
    B --> C[计算分布 pt = wt/Γt];
    C --> D[对手给出成本向量 ct];
    D --> E[更新权重 wt+1(a) = wt(a) · (1 - ηct(a))];
    E --> F{是否 t = T};
    F -- 否 --> B;
    F -- 是 --> G[结束];

综上所述，乘法权重算法为在线决策问题提供了一种有效的解决方案，能够在一定条件下实现无悔的目标。它通过合理利用行动的过去表现和指数衰减机制，在探索和利用之间取得了平衡，并且具有最优的最坏情况预期后悔值。

无悔动态：在线决策与均衡收敛

5. 无悔动态与粗相关均衡

无悔动态描述 ：我们从单智能体场景过渡到多智能体场景，研究有限博弈中的无悔动态。这里使用成本最小化博弈的语言来描述无悔动态，对于收益最大化博弈，可将收益视为负成本。在每个时间步 $t = 1, 2, \ldots, T$ 中：
1. 每个智能体 $i$ 独立地使用无悔算法选择一个混合策略 $p_t^i$，其中行动对应于纯策略。
2. 每个智能体 $i$ 接收一个成本向量 $c_t^i$，其中 $c_t^i(s_i)$ 是在其他智能体选择的混合策略下，纯策略 $s_i$ 的预期成本，即 $c_t^i(s_i) = \mathbb{E} {s {-i}^t \sim \sigma_{-i}^t} [C_i(s_i, s_{-i}^t)]$，这里 $\sigma_{-i}^t$ 是其他智能体混合策略的乘积分布 $\prod_{j \neq i} p_t^j$。

例如，如果每个智能体都使用 MW 算法，那么在每次迭代中，每个智能体只需更新其每个纯策略的权重。在这种情况下，如果每个智能体最多有 $n$ 个策略，且成本位于 $[-c_{max}, c_{max}]$ 范围内，那么在无悔动态进行 $(4c_{max}^2 \ln n)/\epsilon^2$ 次迭代后，每个智能体的预期后悔值至多为 $\epsilon$。

收敛到粗相关均衡 ：下面的结果表明，无悔动态下联合行动的时间平均历史收敛到粗相关均衡集，这在静态均衡概念和自然学习动态产生的结果之间建立了基本联系。
- 命题 17.9 ：假设在 $T$ 次无悔动态迭代后，成本最小化博弈的每个智能体 $i = 1, 2, \ldots, k$ 的预期后悔值至多为 $\epsilon$。设 $\sigma_t = \prod_{i = 1}^{k} p_t^i$ 表示第 $t$ 次迭代的结果分布，$\sigma = \frac{1}{T} \sum_{t = 1}^{T} \sigma_t$ 表示这些分布的时间平均历史。那么 $\sigma$ 是一个近似粗相关均衡，即对于每个智能体 $i$ 和单方面偏离 $s_i’$，有 $\mathbb{E} {s \sim \sigma} [C_i(s)] \leq \mathbb{E} {s \sim \sigma} [C_i(s_i’, s_{-i})] + \epsilon$。

证明过程如下：根据 $\sigma$ 的定义，对于每个智能体 $i$，有 $\mathbb{E} {s \sim \sigma} [C_i(s)] = \frac{1}{T} \sum {t = 1}^{T} \mathbb{E} {s \sim \sigma_t} [C_i(s)]$ 和 $\mathbb{E} {s \sim \sigma} [C_i(s_i’, s_{-i})] = \frac{1}{T} \sum_{t = 1}^{T} \mathbb{E} {s \sim \sigma_t} [C_i(s_i’, s {-i})]$。由于每个智能体的后悔值至多为 $\epsilon$，所以前者至多比后者大 $\epsilon$，从而验证了近似粗相关均衡条件。

这个命题表明粗相关均衡概念在计算上特别容易处理，因此是对智能体行为的一个相对合理的预测。

6. 最终讨论

相关性的内生性 ：传统上，粗相关均衡和相关均衡的解释涉及一个第三方从均衡分布中采样结果。而命题 17.9 展示了，当独立智能体反复进行同一博弈时，这种相关性是如何内生产生的，其根源在于联合行动的共享历史。
近似均衡的不同定义 ：命题 17.9 中近似均衡的概念涉及加法误差，而其他一些定义使用相对误差，这些选择主要是为了技术上的方便。
另一种无悔动态形式 ：另一种无悔动态形式是在每次迭代 $t$ 中，根据分布 $\sigma_t = \prod_{i = 1}^{k} p_t^i$ 采样一个结果 $s_t$，智能体 $i$ 接收成本向量 $c_t^i$，其中 $c_t^i(s_i) = C_i(s_i, s_{-i}^t)$ 对于每个策略 $s_i \in S_i$。对于采样结果的多集 ${s_1, \ldots, s_T}$ 上的均匀分布 $\sigma$，类似命题 17.9 的结论仍然成立，但需要修改陈述和证明以考虑采样误差。在这种替代动态中，智能体必须使用对自适应对手无悔的算法。
价格无政府状态界限 ：在 $(λ, μ)$ - 平滑博弈中，价格无政府状态界限适用于所有粗相关均衡，并且对于近似均衡会优雅地退化。命题 17.9 表明，这些界限也应该适用于无悔动态产生的结果序列的时间平均预期目标函数值。
- 推论 17.10 ：假设在 $T$ 次无悔动态迭代后，$(λ, μ)$ - 平滑成本最小化博弈的 $k$ 个智能体的预期后悔值至多为 $\epsilon$。如果 $\sigma_t = \prod_{i = 1}^{k} p_t^i$ 表示第 $t$ 次迭代的结果分布，$s^ $ 是最优结果，那么 $\frac{1}{T} \sum_{t = 1}^{T} \mathbb{E}_{s \sim \sigma_t} [cost(s)] \leq \frac{λ}{1 - μ} cost(s^ ) + \frac{k\epsilon}{1 - μ}$。当 $\epsilon \to 0$ 时，这个保证收敛到 $\frac{λ}{1 - μ}$，即平滑博弈的标准价格无政府状态界限。

7. 总结与展望

核心要点总结 ：
1. 在在线决策问题的每个时间步中，算法选择行动的概率分布，然后对手揭示每个行动的成本。
2. 行动序列的后悔值是该序列的时间平均成本与事后最佳固定行动成本之间的差异。
3. 无悔算法保证随着时间范围趋于无穷，预期后悔值趋于 0。
4. 乘法权重算法是一种简单的无悔算法，具有最优的最坏情况预期后悔值。
5. 在无悔动态的每次迭代中，每个智能体独立地使用无悔算法选择混合策略。
6. 无悔动态下联合行动的时间平均历史收敛到粗相关均衡集。
7. 平滑博弈中的价格无政府状态界限适用于无悔动态产生的结果序列的时间平均预期目标函数值。
未来研究方向 ：虽然无悔动态和乘法权重算法在理论上取得了很好的结果，但在实际应用中仍有许多问题值得进一步研究。例如，如何在大规模多智能体系统中高效地实现无悔动态，如何处理智能体之间的通信和信息共享，以及如何将无悔动态与其他优化和学习方法相结合等。此外，对于不同类型的博弈和应用场景，可能需要开发更具针对性的无悔算法和动态机制。

以下是无悔动态收敛到粗相关均衡的 mermaid 流程图：

graph TD;
    A[开始无悔动态迭代] --> B[每个智能体选择混合策略 p_t^i];
    B --> C[计算成本向量 c_t^i];
    C --> D[更新智能体策略];
    D --> E{是否达到 T 次迭代};
    E -- 否 --> B;
    E -- 是 --> F[计算时间平均历史 σ];
    F --> G[验证是否为近似粗相关均衡];
    G --> H[结束];

综上所述，无悔动态为多智能体博弈中的学习和决策提供了一种强大的理论框架，乘法权重算法为实现无悔目标提供了有效的方法，而粗相关均衡为理解和预测智能体行为提供了重要的理论依据。未来的研究可以进一步拓展这些理论和方法的应用范围，提高其在实际系统中的性能和效率。