Neural Improvement Heuristics for Graph Combinatorial Optimization Problems

图组合优化问题的神经改进启发式模型

最新推荐文章于 2025-12-02 15:55:42 发布

原创

最新推荐文章于 2025-12-02 15:55:42 发布 · 284 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法

本文提出新的神经改进（NI）模型解决图组合优化问题。该模型能处理节点、边或两者编码信息的问题，可作为爬山算法组件指导邻域操作选择。实验表明，其在偏好排序、旅行商和图分割问题上表现出色，优于传统方法，还探讨了训练和推理时间成本。

Neural Improvement Heuristics for Graph Combinatorial Optimization Problems

IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS 2023

摘要

图神经网络（GNN）架构的最新进展和增加的计算能力已经彻底改变了组合优化（CO）领域。在所提出的模型CO的问题，神经改进（NI）模型已经特别成功。然而，现有的NI方法是有限的，在其适用性的问题，关键信息被编码的边，因为他们只考虑节点的功能和节点位置编码（PE）。为了克服这一限制，我们引入了一种新的NI模型，能够处理基于图形的问题，其中信息被编码在节点，边，或两者兼而有之。所提出的模型作为一个基本组成部分的基于爬山的算法，指导选择的邻域操作，每次迭代。进行的实验表明，该模型可以推荐邻域操作，优于传统版本的偏好排序问题（PRP）的性能，在第99百分位。我们还将该建议扩展到两个众所周知的问题：旅行商问题和图分割问题（GPP），分别推荐第98和第97百分位的操作。

1.简介

组合优化问题（COP）存在于广泛的现实世界应用中，例如物流，制造或生物学[1]，[2]。由于大多数COP的NP-难性质，随着问题的大小增加，使用精确方法找到最优解变得棘手[3]。因此，在过去的几十年中，启发式和元启发式方法已经出现作为替代近似硬COP在合理的时间量。在该领域的初步工作提出了建设性的启发式方法，迭代地建立一个候选的解决方案。一般来说，建设性方法是根据以下标准和规则为手头的问题专门开发的专业知识。后来，这些建设性的建议被引入通用和易于应用的优化范式的元启发式算法所超越。

尽管元启发式已经成为采用的主要工具，与构造性启发式相反，它们是评估密集型算法，即，他们需要在做出决定之前彻底评估数千甚至数百万个候选解决方案，这使得它们对于具有有限预算或在线流媒体优化的场景是不切实际的[4]。

基于神经网络（NN）的算法在这方面起着至关重要的作用。近年来，深度学习（DL）技术在各种机器学习任务中表现出了卓越的性能，引起了包括优化在内的不同领域研究人员的注意。如不同评论[5]，[6]，[7]所述，基于DL的方法已被提议作为独立求解器，参数和/或操作选择方法，或作为更强大的混合算法的组成部分。我们在这项工作中的重点是独立的（端到端）模型，突出他们的能力和进一步研究的途径，旨在提高其性能。一旦经过训练，这些模型可以快速做出决策，例如确定所需的下一个更改。第一个工作在主题提出的模型中，称为建设性方法，通过迭代地将一个项添加到部分解决方案中，直到完成为止，逐步生成唯一的解决方案[8]，[9]，[10]。相反，后来的论文引入了改进方法，这些方法采用候选解决方案并提出修改以改进它[11]，[12]，[13]。事实上，这个改进过程可以迭代地重复，使用修改后的解决方案作为模型的新输入。报告的结果，虽然没有最先进的元启发式方法对最热门问题的竞争力[14]，[15]，但已经引起了优化研究界的注意，因为它们在几年前是不可想象的。事实上，许多这些建议已经超过了经典的建设性启发式。

然而，从研究进展来看，我们发现大多数工作主要是说明他们对旅行商问题（TSP）[18]和其他类似路由问题的贡献。特别是，大多数模型的工作原理是，当考虑COP的图形表示时，信息被嵌入节点[9]，[10]。然而，存在诸如偏好排序问题（PRP）[16]或图划分问题（GPP）[17]之类的问题，其中问题的相关信息是边向的或甚至是节点向和边向的。在这些场景中，节点级建议不会使用所有可用（且有意义）的信息。

根据未来一代算法将来自元启发式算法与机器学习模型[7]的组合的想法，我们提出了一个新的优化框架，可以通过结合神经改进（NI）模型来取代和改进传统的基于局部搜索的方法。具体而言，我们的贡献是双重的：1）我们提出了一个NI模型来解决信息存储在节点中，边缘中或两者中的问题，2）我们表明该模型可以单独使用或可以作为构建块合并，例如，用于基于爬山的算法，以有效地指导邻域操作的选择。

为了证明所提出的框架的通用性和有效性，我们进行了实验，在各种优化问题，包括PRP，TSP和GPP。在节点和边缘特征上训练的NI模型在所有三个问题上都表现出出色的性能，PRP的结果也非常出色。它始终为每个问题推荐最佳或接近最佳的邻居，并且在所有情况下都优于传统方法。

本文的其余部分组织如下。第二节介绍了最突出的作品处理的NN模型CO的发展，无论是在建设性的和改进的方式。出于说明的目的，我们在第三节中介绍了PRP，并在第四节中提出了NI模型。在第五节中进行了一组实验，并在第六节中讨论了该模型对其他问题的推广。最后，第七节对本文进行了总结。

3.偏好排序问题

一般来说，如果要排序的备选方案数量相对较少，则基于偏好或意见对项目进行排序是一项简单的任务。然而，随着备选项/项目数量的增加，获得与成对项目偏好一致的完整排名变得更加困难。想想在一场比赛中使用他们的配对比较对50名球员进行排名，从表现最好的球员到最差的球员。获得与大多数成对比较一致的排名并不是容易的。这个任务被称为PRP [16]。形式上，给定偏好矩阵 $B = [b_{ij} ]_{N×N}$ ，其中矩阵 $b_{ij}$ 的元素表示项目 $i$ 相对于项目 $j$ 的偏好，目标是找到 $B$ 的行和列的同时置换 $ω$ ，使得矩阵的上三角形中的元素的和最大化[参见（1）]。

在这里插入图片描述

请注意， $B$ 中的第 $i$ 行描述了项目 $i$ 相对于其余 $N - 1 个$ 项目的偏好向量，而第 $i$ 列表示其余项目相对于项目i的偏好。因此，为了最大化矩阵的上三角形，优选项目必须在排名中领先[见图2.1（a）]
在这里插入图片描述

除了矩阵表示[图.1（a）]，该问题可以被公式化为一个完全的双向图，其中节点表示要排序的项目的集合，并且加权边表示项目之间的偏好。一对节点 $i$ 和 $j$ 具有两个连接边 $（ i ， j ）$ 和 $（ j ， i ）$ ，权重 $b_{ij}$ j和 $b_{ji}$ 形成前面提到的偏好矩阵 $B$ 。PRP的解决方案（置换）也可以表示为图上的非循环锦标赛，其中排名第一的节点（项目）只有传出边缘，排名第二的节点有1个传入边缘，其余的都是传出的，依此类推，直到排名最后的节点，它只有传入边缘[见图.1 (b）和（c）]。

成对比较排序是现代机器学习研究中普遍存在的问题。由于其在各种研究领域的适用性，它引起了社会的关注，包括但不限于：机器翻译[29]，经济学[30]，腐败感知[31]或任何其他需要项目排名的任务，如体育比赛，网络搜索，资源分配和网络安全[32]，[33]，[34]。

4.方法

方法用NI模型迭代求解图问题的思想可以被公式化为马尔可夫决策过程（MDP），其中策略π负责基于问题的给定状态st在每个步骤t选择动作a。MDP在这项工作中的主要实体可以描述如下。

状态：状态 $s_t$ 表示步骤t处的环境的信息。在这种情况下，状态从两个信息来源收集数据：1）静态数据，即，要解决的实例和2）动态数据，即步骤t处问题的当前解 $ω_t$ 。
动作：在每一步，学习的策略选择动作 $a_t$ ，其涉及当前解决方案的一对项目，根据策略，需要将该对项目与当前解决方案进行比较。选择后，将应用运算符，修改当前解决方案。请注意，根据操作员的不同，修改中可能会涉及其中一项、两项或多项。
奖励：状态 $s_t$ 和 $s_{t+1}$ 之间的转换是从应用于由at给出的一对项的运算符导出的。奖励函数（RF）表示跨状态的解质量的改进。可以使用不同的函数设计，如将在第IV-B节中解释的。

在以下内容中，将提供NI模型的详细描述。尽管设计对于任何基于图形的问题都是通用的，但为了清楚起见，我们提供了基于PRP的说明性示例。对其他问题的延伸将在第六节后面讨论。

在这里插入图片描述

A. NI模型

我们将策略π参数化为具有可训练参数θ的NN模型。考虑到第三节中介绍的案例研究，模型架构需要满足一些要求：
1）需要对图结构数据进行编码;
2）它需要对输入置换是不变的;
3）它需要对输入的大小变化保持不变;
4）需要考虑解的信息。
考虑到我们选择使用GNN编码器，能够收集节点和边缘特征，以及多层感知器（MLP）解码器，这是一种简单而快速的架构，可以解释嵌入的特征并生成一组可能的动作的概率分布。图2呈现了模型的一般架构。除了所提出的模型，我们已经分析了两种不同的编码器和解码器架构，并测试了各种超参数。这些实验的结果见附录A。