Neural Improvement Heuristics for Graph Combinatorial Optimization Problems

图组合优化问题的神经改进启发式模型
本文提出新的神经改进(NI)模型解决图组合优化问题。该模型能处理节点、边或两者编码信息的问题,可作为爬山算法组件指导邻域操作选择。实验表明,其在偏好排序、旅行商和图分割问题上表现出色,优于传统方法,还探讨了训练和推理时间成本。

Neural Improvement Heuristics for Graph Combinatorial Optimization Problems

IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS 2023

摘要

图神经网络(GNN)架构的最新进展和增加的计算能力已经彻底改变了组合优化(CO)领域。在所提出的模型CO的问题,神经改进(NI)模型已经特别成功。然而,现有的NI方法是有限的,在其适用性的问题,关键信息被编码的边,因为他们只考虑节点的功能和节点位置编码(PE)。为了克服这一限制,我们引入了一种新的NI模型,能够处理基于图形的问题,其中信息被编码在节点,边,或两者兼而有之。所提出的模型作为一个基本组成部分的基于爬山的算法,指导选择的邻域操作,每次迭代。进行的实验表明,该模型可以推荐邻域操作,优于传统版本的偏好排序问题(PRP)的性能,在第99百分位。我们还将该建议扩展到两个众所周知的问题:旅行商问题和图分割问题(GPP),分别推荐第98和第97百分位的操作。

1.简介

组合优化问题(COP)存在于广泛的现实世界应用中,例如物流,制造或生物学[1],[2]。由于大多数COP的NP-难性质,随着问题的大小增加,使用精确方法找到最优解变得棘手[3]。因此,在过去的几十年中,启发式和元启发式方法已经出现作为替代近似硬COP在合理的时间量。在该领域的初步工作提出了建设性的启发式方法,迭代地建立一个候选的解决方案。一般来说,建设性方法是根据以下标准和规则为手头的问题专门开发的专业知识。后来,这些建设性的建议被引入通用和易于应用的优化范式的元启发式算法所超越。

尽管元启发式已经成为采用的主要工具,与构造性启发式相反,它们是评估密集型算法,即,他们需要在做出决定之前彻底评估数千甚至数百万个候选解决方案,这使得它们对于具有有限预算或在线流媒体优化的场景是不切实际的[4]。

基于神经网络(NN)的算法在这方面起着至关重要的作用。近年来,深度学习(DL)技术在各种机器学习任务中表现出了卓越的性能,引起了包括优化在内的不同领域研究人员的注意。如不同评论[5],[6],[7]所述,基于DL的方法已被提议作为独立求解器,参数和/或操作选择方法,或作为更强大的混合算法的组成部分。我们在这项工作中的重点是独立的(端到端)模型,突出他们的能力和进一步研究的途径,旨在提高其性能。一旦经过训练,这些模型可以快速做出决策,例如确定所需的下一个更改。第一个工作在主题提出的模型中,称为建设性方法,通过迭代地将一个项添加到部分解决方案中,直到完成为止,逐步生成唯一的解决方案[8],[9],[10]。相反,后来的论文引入了改进方法,这些方法采用候选解决方案并提出修改以改进它[11],[12],[13]。事实上,这个改进过程可以迭代地重复,使用修改后的解决方案作为模型的新输入。报告的结果,虽然没有最先进的元启发式方法对最热门问题的竞争力[14],[15],但已经引起了优化研究界的注意,因为它们在几年前是不可想象的。事实上,许多这些建议已经超过了经典的建设性启发式。

然而,从研究进展来看,我们发现大多数工作主要是说明他们对旅行商问题(TSP)[18]和其他类似路由问题的贡献。特别是,大多数模型的工作原理是,当考虑COP的图形表示时,信息被嵌入节点[9],[10]。然而,存在诸如偏好排序问题(PRP)[16]或图划分问题(GPP)[17]之类的问题,其中问题的相关信息是边向的或甚至是节点向和边向的。在这些场景中,节点级建议不会使用所有可用(且有意义)的信息。

根据未来一代算法将来自元启发式算法与机器学习模型[7]的组合的想法,我们提出了一个新的优化框架,可以通过结合神经改进(NI)模型来取代和改进传统的基于局部搜索的方法。具体而言,我们的贡献是双重的:1)我们提出了一个NI模型来解决信息存储在节点中,边缘中或两者中的问题,2)我们表明该模型可以单独使用或可以作为构建块合并,例如,用于基于爬山的算法,以有效地指导邻域操作的选择。

为了证明所提出的框架的通用性和有效性,我们进行了实验,在各种优化问题,包括PRP,TSP和GPP。在节点和边缘特征上训练的NI模型在所有三个问题上都表现出出色的性能,PRP的结果也非常出色。它始终为每个问题推荐最佳或接近最佳的邻居,并且在所有情况下都优于传统方法。

本文的其余部分组织如下。第二节介绍了最突出的作品处理的NN模型CO的发展,无论是在建设性的和改进的方式。出于说明的目的,我们在第三节中介绍了PRP,并在第四节中提出了NI模型。在第五节中进行了一组实验,并在第六节中讨论了该模型对其他问题的推广。最后,第七节对本文进行了总结。

相关工作

虽然自80年代以来,神经网络已被用于以Hopfield网络的形式解决COPs [19],但直到最近[6],[7]计算能力的进步和复杂架构的发展才使应用程序变得更加高效和更具竞争力。如前所述,基于NN的优化方法可以根据其策略分为两大类。

A.神经构造方法

大多数基于DL的作品开发的政策,学习建设性的启发式。这些方法从一个空的解决方案开始,迭代地向解决方案中添加一个项,直到完成为止。在神经组合学最早的著作之一中,优化(CO)范例,Bello等人[8]使用指针网络模型[20]来参数化策略,该策略为TSP逐项构造解决方案。受[8]中的结果的启发,并且主要关注TSP,DL从业者已经成功地实现了不同的架构,例如图NN(GNN)[21],[22]或基于注意力的网络[9],[10]。由于基线模型的性能仍然远远没有达到最优(大多数情况下,节点数超过几百个),因此通常会使用补充算法来增强它们,例如主动搜索[8],采样[9]或波束搜索[20],这些算法以增加计算时间为代价来增加解决方案的多样性。如将在下文中看到的,改进方法提供了更有效的替代方案,直接学习从当前解决方案到更好的解决方案的转变。

B.NI方法

NI方法从给定的解决方案出发,并迭代地提出(一组)修改以改进它,直到解决方案不能进一步改进。NI方法使用学习的策略来智能地跨不同的邻域导航。

为此,以前用于建设性方法的架构已被重新用于实现改进方法。Chen和Tian [11]使用长短期记忆(LSTM)来参数化两个模型:第一模型输出要重写的解的每个区域的得分或概率,而第二模型选择修改该区域的规则。Lu等人。[12]使用基于注意力的模型在运营商池中选择本地运营商来解决容量限制的车辆路径问题(VRP)。使用注意力网络,Hottung和Tierney [23]提出了一种神经大邻域搜索,它建议新的解决方案破坏和修复当前解决方案的一部分。

接近我们的建议,但仅限于路由问题,吴等人。[13]训练选择节点对以应用本地运算符的策略,例如,类似地,da Costa et al.[24]推广了以前的工作,选择k-opt算子。Falkner等人[25]提出了一种改进的作业调度方法,该方法从三个方面学习如何控制局部搜索:解决方案的接受、邻域选择和扰动。我们在表I中总结了最相关的NI作品的特征。

改进方法不仅要考虑静态实例数据,而且还需要考虑当前的解决方案。事实上,对于大多数组合问题来说,将解信息编码到潜在空间中的困难是一个主要挑战。

作为一个例子,有各种方式来表示路由问题的解决方案。每个节点(或城市)可以维护一组指示当前解决方案中的相对位置的特征,例如到先前和随后访问的节点的位置和距离[12]。然而,该技术不将整个解决方案视为一个,因为它仅考虑解决方案中的连续节点对。在这种情况下,一个常见的策略是结合位置编码(PE),它在给定的解决方案中捕获访问城市(节点)的序列[9]。最近,Ma等。[26]提出了一种循环PE,它捕获了路由问题的循环性和对称性,使其比传统PE更适合表示解决方案。

然而,在一些图问题中,基本信息仅编码在边中,因此,专注于节点嵌入的现有方法[12],[26]不能正确编码相关信息。

尽管很少有工作考虑边权重来编码特定于问题的特征[27],[28],但他们专注于为每个边创建属于最优解的概率热图,并使用它来构建(或采样)一组(一组)解决方案。在这项工作中,类似于[27]和[28],我们使用节点和边来表示图形数据。然而,使我们的方法与众不同的是它能够对实例和解决方案信息进行编码,然后使用此编码信息提出局部改进措施。此外,与[13]相比,我们通过考虑节点和边特征,提供了一些推广到不同基于图的问题的指导方针。此外,与[13]不同,我们不依赖于PE来嵌入当前解决方案信息,因为我们自然地将其嵌入边缘特征中。最后,我们提出了一个独立的NI模型,并演示了如何联合收割机其与经典的局部搜索技术,如多起点爬山(HC),禁忌搜索(TS),或迭代局部搜索。

在第三节中,我们将提出一个优化问题,说明需要开发新的NI模型,也考虑边缘功能。

3.偏好排序问题

一般来说,如果要排序的备选方案数量相对较少,则基于偏好或意见对项目进行排序是一项简单的任务。然而,随着备选项/项目数量的增加,获得与成对项目偏好一致的完整排名变得更加困难。想想在一场比赛中使用他们的配对比较对50名球员进行排名,从表现最好的球员到最差的球员。获得与大多数成对比较一致的排名并不是容易的。这个任务被称为PRP [16]。形式上,给定偏好矩阵 B = [ b i j ] N × N B = [b_{ij} ]_{N×N} B=[bij]N×N,其中矩阵 b i j b_{ij} bij的元素表示项目 i i i相对于项目 j j j的偏好,目标是找到 B B B的行和列的同时置换 ω ω ω,使得矩阵的上三角形中的元素的和最大化[参见(1)]。

在这里插入图片描述

请注意, B B B中的第 i i i行描述了项目 i i i相对于其余 N − 1 个 N-1个 N1项目的偏好向量,而第 i i i列表示其余项目相对于项目i的偏好。因此,为了最大化矩阵的上三角形,优选项目必须在排名中领先[见图2.1(a)]
在这里插入图片描述在这里插入图片描述

除了矩阵表示[图.1(a)],该问题可以被公式化为一个完全的双向图,其中节点表示要排序的项目的集合,并且加权边表示项目之间的偏好。一对节点 i i i j j j具有两个连接边 ( i , j ) (i,j) ij ( j , i ) (j,i) ji,权重 b i j b_{ij} bij j和 b j i b_{ji} bji形成前面提到的偏好矩阵 B B B。PRP的解决方案(置换)也可以表示为图上的非循环锦标赛,其中排名第一的节点(项目)只有传出边缘,排名第二的节点有1个传入边缘,其余的都是传出的,依此类推,直到排名最后的节点,它只有传入边缘[见图.1 (b)和(c)]。

成对比较排序是现代机器学习研究中普遍存在的问题。由于其在各种研究领域的适用性,它引起了社会的关注,包括但不限于:机器翻译[29],经济学[30],腐败感知[31]或任何其他需要项目排名的任务,如体育比赛,网络搜索,资源分配和网络安全[32],[33],[34]。

4.方法

方法用NI模型迭代求解图问题的思想可以被公式化为马尔可夫决策过程(MDP),其中策略π负责基于问题的给定状态st在每个步骤t选择动作a。MDP在这项工作中的主要实体可以描述如下。

  1. 状态:状态 s t s_t st表示步骤t处的环境的信息。在这种情况下,状态从两个信息来源收集数据:1)静态数据,即,要解决的实例和2)动态数据,即步骤t处问题的当前解 ω t ω_t ωt
  2. 动作:在每一步,学习的策略选择动作 a t a_t at,其涉及当前解决方案的一对项目,根据策略,需要将该对项目与当前解决方案进行比较。选择后,将应用运算符,修改当前解决方案。请注意,根据操作员的不同,修改中可能会涉及其中一项、两项或多项。
  3. 奖励:状态 s t s_t st s t + 1 s_{t+1} st+1之间的转换是从应用于由at给出的一对项的运算符导出的。奖励函数(RF)表示跨状态的解质量的改进。可以使用不同的函数设计,如将在第IV-B节中解释的。

在以下内容中,将提供NI模型的详细描述。尽管设计对于任何基于图形的问题都是通用的,但为了清楚起见,我们提供了基于PRP的说明性示例。对其他问题的延伸将在第六节后面讨论。

在这里插入图片描述

A. NI模型

我们将策略π参数化为具有可训练参数θ的NN模型。考虑到第三节中介绍的案例研究,模型架构需要满足一些要求:
1)需要对图结构数据进行编码;
2)它需要对输入置换是不变的;
3)它需要对输入的大小变化保持不变;
4)需要考虑解的信息。
考虑到我们选择使用GNN编码器,能够收集节点和边缘特征,以及多层感知器(MLP)解码器,这是一种简单而快速的架构,可以解释嵌入的特征并生成一组可能的动作的概率分布。图2呈现了模型的一般架构。除了所提出的模型,我们已经分析了两种不同的编码器和解码器架构,并测试了各种超参数。这些实验的结果见附录A。

1.Encoder

给定一个有N个节点的全连通图,有N×N条边或节点对,每条边 ( i , j ) (i,j) ij有一个权重 b i j b_{ij} bij,表示节点 i i i相对于节点 j j j的相对信息。注意,只有 N × ( N − 1 ) N ×(N − 1)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值