文献阅读10期:ATTENTION, LEARN TO SOLVE ROUTING PROBLEMS!

本文介绍了使用Attention模型解决旅行商问题(TSP)的方法,通过Transformer结构的编码器和解码器,结合REINFORCE算法和Rollout Baseline进行策略优化。论文展示了将注意力机制应用于图结构的路径规划,并在实验中取得有效结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
[ 文献阅读·路径规划 ] ATTENTION, LEARN TO SOLVE ROUTING PROBLEMS! [1]

推荐理由:这篇应该不用多说了,ATTENTION模型做路径规划,算是一篇MileStone了。

1. Attention Model

  • 一个TSP实例假定有n个节点,i∈{ 1,…,n}i \in\{1, \ldots, n\}i{ 1,,n},每个节点的特征为xi\mathbf{x}_{i}xi,对于TSP问题来说,xi\mathbf{x}_{i}xi即节点i的坐标,且构成图为全连接图(其中包括自连接)。
  • 总而言之,TSP问题的模型可以被认为是一个Graph Attention Network。
  • 通过Mask来定义图结构。
  • π=(π1,…,πn)\boldsymbol{\pi}=\left(\pi_{1}, \ldots, \pi_{n}\right)π=(π1,,πn)为节点的排列组合
  • 对于给定实例s\mathcal{s}s,选择解π\piπ的概率即一种随机策略概率p(π∣s)p(\boldsymbol{\pi} \mid s)p(πs),则对于一个完整TSP问题,策略表达如下:
    pθ(π∣s)=∏t=1npθ(πt∣s,π1:t−1)(1) p_{\theta}(\boldsymbol{\pi} \mid s)=\prod_{t=1}^{n} p_{\boldsymbol{\theta}}\left(\pi_{t} \mid s, \boldsymbol{\pi}_{1: t-1}\right)\tag{1} pθ(πs)=t=1npθ(πts,π1:t1
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值