62、具有误差界的帕累托前沿近似方法

辣条鉴定师

于 2025-09-21 12:33:43 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏：算法驱动的机器人未来文章标签：多目标优化帕累托前沿遗憾值

本文链接：https://blog.youkuaiyun.com/defi6farmer/article/details/152065440

算法驱动的机器人未来专栏收录该内容

66 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

具有误差界的帕累托前沿近似方法

在多目标优化问题中，帕累托前沿的近似是一个重要的研究方向。本文将介绍一种具有误差界的帕累托前沿近似算法，并通过实验验证其有效性。

问题分析

在多目标优化问题中，我们通常需要找到一组权重 $\Omega$，使得在所有可能的权重 $W$ 中，被表示得最差的元素的遗憾值最小。具体来说，给定一个权重 $w^ \in W$ 和一个集合 $\Omega \subset W$，$min_{w’ \in \Omega} r(w’|w^ )$ 表示用 $s^ (w’)$ 近似 $s^ (w^ )$ 的次优性，其中 $w’$ 是 $\Omega$ 中使这种次优性最小的权重。而 $max_{w^ \in W} min_{w’ \in \Omega} r(w’|w^ )$ 则表示 $\Omega$ 中元素对 $W$ 中最差表示的权重 $w^ $ 的遗憾值，我们将这个最大值的解称为给定 $\Omega$ 时的最大遗憾值。

为了得到这个问题的近似解，我们需要对成本函数 $u(w)$ 进行结构分析，并基于此推导出一个高效的算法。在这个过程中，我们有两个重要的观察结果：
- 观察 1 ：对于任意两个权重 $w^ , w’ \in W$，有 $u(w^ ) \leq w^ \cdot f(s^ (w’))$。这意味着在权重 $w^ $ 下的最优解的成本不会高于在不同权重向量 $w’$ 下的最优解的成本。根据这个不等式，我们可以推出 $r(w’|w^ ) \geq 0$。
- 观察 2（最优成本的凹性） ：最优成本函数 $u(w)$ 是 $w$ 的凹函数。因为对于每个 $s \in S$，成本 $c(s, w) = w \cdot f(s)$ 是 $w$ 的仿射函数（因此是凹的），所以 $u(w) = min_{s \in S} c(s, w)$ 也是凹的。

基于观察 2，我们可以得到以下推论：
- 推论 1（最优成本的连续性） ：在假设 1 和 2 下，函数 $u(w)$ 在 $W$ 的内部是连续的，并且在 $W$ 的边界上沿其内部方向也是连续的。

此外，我们还可以证明以下定理：
- 定理 1（遗憾值的凸性） ：对于固定的权重 $w’ \in W$，遗憾值 $r(w’|w)$ 是 $w$ 的凸函数。

由于 $u(w)$ 是连续且凹的，它必然位于任何次梯度之下。这引出了另一个推论：
- 推论 2（次梯度最优成本） ：对于任何 $w \in W$，$u(w)$ 的次梯度由 $\partial u(w) = f(s^ (w))$ 给出，其中 $s^ (w)$ 是任意使成本最小的解。

这些结果表明，给定两个权重 $w’, w^ \in W$，遗憾值 $r(w’|w^ )$ 恰好是通过线性插值近似凹函数 $u(w)$ 的误差。

算法设计

我们提出的算法通过递归地向解集合 $\Omega$ 中添加权重来工作。具体来说，我们会选择当前 $\Omega$ 中表示最差的权重添加到 $\Omega$ 中。算法的基本框架可以递归地描述为：
$\Omega_{k+1} = \Omega_k \cup {arg max_{w^ \in W} min_{w’ \in \Omega_k} r(w’|w^ )}$

然而，由于其嵌套结构，直接求解上述最大化问题并不容易。因此，我们用一个上界 $R(w’|w^ )$ 来代替 $r(w’|w^ )$，并通过线性规划（LP）来求解其最大化问题。

具体步骤如下：
1. 定义邻域 ：给定一组权重 $\Omega \subseteq W$，我们定义 $N$ 为一组 $n$ 个线性独立的权重 $w_1, \ldots, w_n \in \Omega$，并让 $C(N) \subset R^n$ 表示 $N$ 的凸包。我们将 $N$ 称为邻域。
2. 定义线性下界 ：在邻域 $N$ 内，我们定义目标值 $u(w)$ 的线性下界 $P(w)$，使得 $P(w_i) = u(w_i)$ 对于所有 $w_i \in N$。
3. 定义遗憾值上界 ：我们用 $R(w’|w^ ) = f(s^ (w’))w^ - P(w^ )$ 表示 $w’$ 的切平面与 $P$ 在 $w^ $ 处的差值，其中 $w’ \in N$，$w^ \in C(N)$。
4. 求解线性规划 ：通过求解以下线性规划问题，我们可以得到 $\overline{R}(N)$ 和 $\overline{w}(N)$：
$max_{x \in R, w \in R^n} x - P(w)$
$s.t.$
$\begin{bmatrix}
f_1(s^ (w_1)) & \cdots & f_n(s^ (w_1)) & -1 \
\vdots & \ddots & \vdots & \vdots \
f_1(s^ (w_n)) & \cdots & f_n(s^ (w_n)) & -1
\end{bmatrix}
\begin{bmatrix}
w \
x
\end{bmatrix}
\geq
\begin{bmatrix}
0 \
\vdots \
0
\end{bmatrix}$
$w \in C(N)$

如果 $(x^ , w^ )$ 是上述线性规划的解，那么最优成本为 $x^ - P(w^ ) = \overline{R}(N)$，且 $w^* = \overline{w}(N)$。

算法流程

我们的算法 Min - Regret Pareto Sampling (MRPS) 的具体流程如下：

Input: 一个精确求解器以找到 s*(w), f(s*(w)); 预算 K
Output: 采样权重 Ω 和最大遗憾值
1. Ω ← {e_i, i = 1, ..., n} // 其中 e_i 是 n × n 单位矩阵的第 i 行
2. 从精确求解器中获取 s*(e_i), f(s*(e_i)), i = 1, ..., n
3. N ← {Ω}
4. for k = n to K do
    5. N = N 中具有最大 \overline{R}(N) 的邻域
    6. if \overline{R}(N) = 0 then
        7. break // 如果最大上界遗憾值为 0，则终止
    8. Ω ← Ω ∪ {\overline{w}(N)}
    9. 从精确求解器中获取 s*(\overline{w}(N)), f(s*(\overline{w}(N)))
    10. N = N \ N // 移除最大遗憾邻域
    11. for w_i in N do
        12. N_i ← N \ {w_i} ∪ {\overline{w}(N)} // 用最大遗憾界的权重替换 w_i
        13. if N_i 是邻域，即其权重线性独立 then
            14. N = N ∪ N_i
            15. F(N_i) ← F(N) \ {f(s*(w_i))} ∪ {f(s*(\overline{w}(N)))}
16. return Ω 和所有 N ∈ N 中 \overline{R}(N) 的最大值

这个算法的工作原理是，首先初始化一个邻域，其权重是 $R^n$ 的 $n$ 个规范基元素。然后，在每次迭代中，选择具有最大遗憾上界的邻域，将其遗憾权重添加到 $\Omega$ 中，并将该邻域拆分为最多 $n$ 个更小的邻域。最后，返回集合 $\Omega$ 以及给定 $\Omega$ 时遗憾值的上界。

算法性质

我们的算法具有以下几个有益的性质：
- 求解次数限制 ：对于预算 $K$，算法最多需要求解 $K$ 次 LSMOP 问题，即每次向 $\Omega$ 中添加一个元素时求解一次。
- 遗憾值上界 ：算法返回的 $\overline{R}(N)$ 是原始问题中遗憾值的上界。因为在每次迭代中，邻域被拆分为凸包不相交且共同构成原邻域凸包的子邻域，根据定理 2，有 $max_{w^ \in W} min_{w’ \in \Omega} r(w’|w^ ) \leq max_{N \in N} \overline{R}(N)$。
- 渐近收敛性 ：当 $K \to \infty$ 时，算法返回的集合 $\Omega(K)$ 渐近且单调地趋近于一个遗憾值为零的集合。

实验设置

为了验证算法的有效性，我们在两个不同的领域进行了模拟实验：轨迹规划和学习人类偏好。我们将我们提出的算法 MRPS 与权重空间中的均匀采样方法（Uniform）进行了比较。

实验 1：杜宾斯轨迹

在第一个实验中，我们对杜宾斯车辆的 LSMOP 运动规划问题的帕累托前沿进行了近似。该问题的目标是轨迹长度和平方积分（IS）加加速度。为了找到解 $s^*(w)$，运动规划器可以使用不同的转弯半径计算不同的杜宾斯轨迹，并从中选择最优的轨迹。

示例分析 ：当采样数 $K = 7$ 时，我们发现 MRPS 产生了更多样化的样本轨迹，特别是那些长度较短的轨迹。在帕累托前沿的近似中，Uniform 方法存在较大的间隙，而 MRPS 方法的样本分布更均匀。从图 5 可以看出，MRPS 在 $u(w)$ 变化更迅速的右端放置了更多的样本，因此其遗憾值明显小于 Uniform 方法。
定量分析 ：我们重复了杜宾斯规划实验，但随机化了目标位置并设置了不同的采样预算 $K$。我们从三个方面评估算法性能：遗憾值、相对遗憾值（将遗憾值中的差值替换为比率）和估计的帕累托前沿的超体积。
- 不同目标数量的影响 ：我们考虑了具有 2、3 和 4 个目标的情况。在具有 3 个目标（轨迹长度、IS 加加速度和最大加加速度）的系统中，当 $K = 0$ 时，两种方法都只使用基解 $e_1, \ldots, e_n$。对于绝对和相对遗憾值，我们发现对于所有 $k > 0$，MRPS 都能实现显著更小的值。例如，仅使用 3 个样本时，MRPS 的中位遗憾值为 0.17，相对遗憾值的中位数为 1.08；而 Uniform 方法在使用 10 个样本时，遗憾值和相对遗憾值的中位数分别为 0.23 和 1.16。较小的估计超体积也表明 MRPS 样本能更紧密地线性近似帕累托前沿。
- 目标数量变化的趋势 ：在具有 2 个目标（长度和 IS 加加速度）的情况下，两种方法都能用较少的样本实现较小的遗憾值，但 MRPS 在 $K = 3$ 时的样本优于 Uniform 在 $K = 10$ 时的样本，并且在 $K = 10$ 时 MRPS 的遗憾值收敛到 0。在具有 4 个目标（增加了避免环境部分区域的目标）的情况下，虽然两种方法的遗憾值都较大，但 MRPS 在使用 3 个样本时的性能与 Uniform 使用 10 个样本时相当。

实验 2：奖励学习

在第二个实验中，我们展示了如何在学习用户偏好时使用我们提出的采样方法。用户交互模式采用从选择中学习的方式，即用户会被迭代地询问两个潜在的机器人轨迹，并指出更喜欢的一个。通过多次迭代，机器人可以推断出用户的权重 $w^*$。

实验设置 ：大多数解决这个问题的算法需要一组预采样的轨迹，从中使用某种启发式方法选择最佳查询。我们将 MRPS 算法用于生成这些预采样轨迹，并与 Uniform 方法生成的预采样轨迹进行比较。为了清晰比较，我们使用一个简单的确定性用户模型：当呈现轨迹 A 和 B 时，用户选择 A 当且仅当 $f(A)w^ \leq f(B)w^ $。机器人采用主动学习，在每次迭代中可以选择呈现的第二个轨迹。我们采用从预采样集合中随机选择（Random）或使用 [11] 中的最小最大遗憾方法（Regret）。
实验结果 ：我们使用之前的四个特征杜宾斯规划问题，固定一个目标位置进行实验。从图 7 可以看出，无论使用哪种查询方法（Random 或 Regret），MRPS 样本导致的学习误差都小于 Uniform 样本。这是因为 Uniform 集合并不总是包含接近最优的样本，当 $w^ $ 是从 MRPS 样本中抽取时，学习最终可能无法取得进展；而使用 MRPS 样本时，即使 $w^ $ 来自 Uniform 样本，也能找到接近最优的解决方案，误差非常小。
样本集大小的影响 ：当比较不同大小 $K$ 的样本集时，我们发现所有方法在 $K$ 较大时学习速度略有减慢。增加可用轨迹的数量似乎更会分散学习算法的注意力，而不是提供更有信息的查询。更令人惊讶的是，使用 Uniform 样本时，学习效果在某些情况下会受到较大影响。

综上所述，我们提出的 MRPS 算法在多目标优化问题的帕累托前沿近似中表现出了显著的优势，无论是在轨迹规划还是学习人类偏好的实验中，都能更有效地利用样本，实现更小的遗憾值和更准确的学习效果。

具有误差界的帕累托前沿近似方法

实验结果总结与对比

为了更直观地展示 MRPS 算法和 Uniform 方法的性能差异，我们将实验结果进行总结对比，如下表所示：
|实验类型|评估指标|MRPS（少量样本）|Uniform（较多样本）|
| ---- | ---- | ---- | ---- |
|杜宾斯轨迹（3 目标）|绝对遗憾值|0.17（K = 3）|0.23（K = 10）|
|杜宾斯轨迹（3 目标）|相对遗憾值|1.08（K = 3）|1.16（K = 10）|
|杜宾斯轨迹（2 目标）|遗憾值收敛情况|K = 10 收敛到 0| - |
|杜宾斯轨迹（4 目标）|性能表现|与 K = 10 的 Uniform 相当（K = 3）| - |
|奖励学习|学习误差|较小|较大|

从这个表格中可以清晰地看到，MRPS 算法在少量样本的情况下，就能在多个评估指标上优于 Uniform 方法，充分体现了其高效性和优越性。

算法优势的深入分析

MRPS 算法之所以能取得这样的优势，主要得益于其独特的设计理念和执行方式。下面我们通过 mermaid 流程图来详细分析其优势：

graph TD;
    A[初始化邻域] --> B[选择最大遗憾上界邻域];
    B --> C[添加遗憾权重到Ω];
    C --> D[拆分邻域];
    D --> E{是否达到预算 K};
    E -- 否 --> B;
    E -- 是 --> F[返回Ω和遗憾值上界];

动态添加权重 ：算法通过递归地添加权重到解集合 $\Omega$ 中，每次选择的都是当前 $\Omega$ 中表示最差的权重。这种动态的添加方式能够更有针对性地覆盖帕累托前沿上那些难以被表示的区域，从而减少整体的遗憾值。
使用上界替代 ：在求解最大遗憾值时，用 $R(w’|w^ )$ 这个上界来代替 $r(w’|w^ )$，并通过线性规划求解。这样避免了直接求解嵌套结构的复杂问题，大大提高了算法的求解效率。
邻域拆分与更新 ：每次迭代中，将具有最大遗憾上界的邻域拆分为最多 $n$ 个更小的邻域。这种逐步细化的方式能够更精确地逼近帕累托前沿，使得算法在不断迭代过程中，遗憾值逐渐减小。

实际应用的潜在价值

MRPS 算法在实际应用中具有广泛的潜在价值，特别是在多目标优化问题中。以下是一些具体的应用场景：
- 机器人路径规划 ：在机器人执行任务时，往往需要同时考虑多个目标，如路径长度、能耗、安全性等。MRPS 算法可以帮助机器人快速找到接近最优的路径，提高任务执行的效率和质量。
- 资源分配问题 ：在企业或组织中，资源的分配需要平衡多个目标，如成本、效益、公平性等。使用 MRPS 算法可以更合理地分配资源，实现多个目标的最优折衷。
- 个性化推荐系统 ：在推荐系统中，需要根据用户的不同偏好和需求，为用户提供个性化的推荐。MRPS 算法可以用于学习用户的偏好权重，从而更准确地为用户推荐符合其需求的内容。

未来研究方向

虽然 MRPS 算法在本次实验中表现出色，但仍然有一些可以改进和拓展的方向：
- 算法复杂度优化 ：尽管使用线性规划替代了复杂的嵌套求解，但在处理大规模问题时，算法的复杂度仍然可能较高。未来可以研究更高效的求解方法，进一步降低算法的时间和空间复杂度。
- 多模态数据融合 ：在实际应用中，数据往往具有多模态的特点。可以考虑将 MRPS 算法与多模态数据融合技术相结合，以更好地处理复杂的多目标优化问题。
- 不确定性处理 ：现实世界中存在很多不确定性因素，如环境变化、用户偏好的动态变化等。未来的研究可以考虑如何在 MRPS 算法中引入不确定性处理机制，提高算法的鲁棒性。

综上所述，MRPS 算法为多目标优化问题的帕累托前沿近似提供了一种高效、准确的解决方案。通过实验验证，其在轨迹规划和学习人类偏好等领域都表现出了显著的优势。未来，随着研究的不断深入和拓展，MRPS 算法有望在更多的实际应用中发挥重要作用。