基于深度学习的共享单车再平衡

最新推荐文章于 2025-11-23 17:56:55 发布

原创最新推荐文章于 2025-11-23 17:56:55 发布 · 904 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#共享单车 #再平衡 #深度学习 #序列模型 #路径规划

基于深度序列学习的共享单车系统再平衡

摘要

共享单车系统（BSS）作为一种绿色便捷的交通方式，已在全球范围内受到广泛关注并快速发展。然而，由于用户需求在时间和空间上的变化，BSS的自行车站点容易出现空置或满载状态，从而影响系统的运行效率和用户体验。为解决这一问题并高效地实现自行车再平衡，研究人员提出了大量方法，尤其是来自运筹学领域的方案。然而，该问题本质上是一个NP难问题，大多数已有方法难以应用于大规模的共享单车系统（BSS）。本文受人工智能领域最新进展的启发，注意到对于特定的共享单车系统，类似的重新平衡问题每天都在重复发生。因此，有望从历史问题实例中学习有用的知识，并将其应用于未来的问题。本文采用序列到序列学习技术进行知识学习，并将其用于新问题的求解。在真实世界数据集上的评估结果表明，我们的方法显著优于现有的平衡方案。

引言

近年来，在物联网技术[1],[2]进步的推动下，共享单车系统已在全球范围内成为主流。在遍布五大洲600多座城市部署的共享单车系统（BSS）为城市地区提供了一种便捷、灵活且环保的交通方式[3]。全球共享单车的兴起带来了许多运营挑战，其中最主要的是车站之间的车辆失衡问题。例如，大量自行车在早晨从住宅区转移到商业区，而在晚上则相反。还车和取车需求的变化导致部分车站自行车积压，而其他车站则缺乏自行车，常常造成无法取车或无法还车的情况。我们通过分析杭州共享单车系统（Hangzhou’s BSS）的使用数据发现，该系统很容易进入失衡状态。杭州共享单车系统是全球规模最大的自行车共享系统之一，包含超过3000个站点。根据我们的统计，17%的车站在一个月内从未出现满车或空车状态，19%的车站空车状态持续超过200小时，27%的所有车站满车状态持续同样时长。

为解决此问题，系统运营商通常使用容量有限的卡车或拖车在各站点之间重新分配自行车。然而，车辆再分配并非易事，可分解为两个步骤：1）确定每个站点应取走或投放多少辆自行车；2）设计卡车的最优路径方案。对于步骤1，Liu et al. 提出搜索一个合适的数量，以最大化每个站点的运行寿命[4]。对于步骤2，从操作与优化角度出发的建模方法及求解方案见于[5]–[7]；Liu et al. 设计了一种聚类后路径规划的方法[4]；Li et al. 从强化学习的角度研究了该问题[8]。然而，现有求解路径规划问题的方法尚不理想。精确方法（如[5],[7]）求解大规模组合优化问题耗时较长，在实际中难以应用；近似方法（如[4],[9]）通常依赖手工设计的启发式方法，但未考虑每个共享单车系统的独特特征，从而影响了其性能。

我们注意到，尽管重新平衡问题是一个NP难问题，但对于特定的自行车共享系统，不同日期的重新平衡问题具有一些共同的设置和结构。例如，每天靠近商业区的站点都面临相似的流入量，因此需要运走相似数量的自行车。这一特性促使我们使用神经网络模型来学习以往的经验，并设计一个端到端的系统以预测最优再平衡方案。所提出的方法可以：1）利用以往数据训练模型以进行未来预测；2）使用小规模实例训练模型，并将其应用于大规模实例。

在我们的系统中，我们首先预测每个站点在未来近期的还车和取车需求。基于此预测，我们确定所有站点的最优平衡间隔。接下来，我们训练一个神经网络，以根据再平衡区间和站点位置来预测平衡运输车的行驶路线。最后，提出一种后处理算法，将预测的路线转换为可行解，并确定每个站点的具体平衡数量。

本文的主要贡献如下：
■ 我们设计了一个端到端的人工智能辅助的大型自行车共享系统再平衡系统。
■ 我们提出了一种基于预测结果计算最优平衡间隔的算法，从而提高了问题的灵活性。
■ 我们改进了指针网络并设计了一种后处理算法，使得重新平衡问题能够被恰当地视为一个有监督学习问题。
■ 我们使用全球最大的自行车共享系统之一的真实世界数据进行了广泛的评估。评估结果表明，我们的方法优于现有的再平衡方案。

本文其余部分组织如下：我们在第二节介绍背景和设计细节。第三节展示了在真实世界数据集上的评估。最后，在第四节中，我们总结了本文，并讨论了局限性和未来工作。

设计

背景与问题描述

如第 I 节所述，自行车共享系统（BSS）通常由多个自行车站点组成。用户可以从其出发地附近的站点取车，并在目的地附近的站点还车。这些站点通常具有有限数量的车桩（即站点容量，通常为 20 到 30 个），这意味着由于借车流量过大，可能会出现无车可借的情况，反之也可能出现车桩满载无法还车的情况。为了防止站点出现空置或满载的情况，运营商通常使用卡车将自行车从满载的站点运送到空闲的站点。卡车从区域仓库出发，依次访问一系列站点，最后返回仓库。该仓库用于维修自行车和存放备用自行车，因此卡车在离开仓库时可以携带一些自行车，返回时也可以卸下部分自行车。

本文研究早高峰时段前的自行车再平衡问题，目标是最小化在特定时间段内站点空置或满溢的时间。我们考虑使用一辆卡车进行再平衡，并允许其多次返回车场以装载或卸载额外的自行车。设计车辆路径方案的目标是最小化总距离。

再平衡区间预测

在此步骤中，我们首先确定每个站点的最优平衡间隔。通过考虑再平衡区间而非强制性数值，路径规划算法可以根据其路由设计选择合适的数值，从而提高问题的灵活性。

借助自行车共享系统的细粒度预测模型[10]，我们可以预测未来一段时间内的还车和取车数量。该模型针对每个 30分钟时间窗口提供预测结果，取车和还车的均方对数误差分别为0.4287和0.4736。在本问题中，我们首先预测从早上6:00到14:00的取车/还车数量，并以滚动方式累加预测结果，从而获得每个站点的库存曲线。该曲线如图1中实心黑线所示，我们的优化成本是站点处于满仓/空仓状态的时间。

通过利用主动再平衡与用户行为之间的独立性，我们可以将再平衡视为在垂直方向上移动曲线。如图1中的虚线所示，我们可以看到将曲线移动到不同位置（即取走不同数量的自行车）具有相同的成本。换句话说，所有这些再平衡数量都将导致相同的站点性能。

因此，在这一步中，我们使用一个再平衡区间来记录导致相同最优性能的数值，并将此区间表示为 $[l_i, u_i]$，其中 $l_i$ 和 $u_i$ 分别是站点i所需的最小和最大初始库存（如图1所示）。换句话说，如果站点i在再平衡前的初始库存为 $c_i$，且再平衡数量为 $x_i$，我们应确保 $l_i \leq c_i + x_i \leq u_i$。

示意图0

访问顺序预测

在此步骤中，我们使用神经网络生成卡车的访问序列，以最小化行驶距离。

模型描述

我们使用了一个类似于指针网络[11]的网络，但我们修改了输入信息，并为自行车共享系统中的重新平衡问题增加了一个额外的后处理过程（见第二节-D小节）。

我们的路径预测模型如图2所示。该模型由两个 LSTM（长短期记忆网络）组成。对于编码器网络，每一步我们输入一个元组 $(l_i - c_i, u_i - c_i, \text{lat}_i, \text{lon}_i)$，其中 $l_i, u_i$ 和 $c_i$ 分别是再平衡区间和初始库存，$\text{lat}_i$ 和 $\text{lon}_i$ 是站点i的纬度和经度。在解码器网络中，我们使用注意力机制计算每个站点被选为访问序列中下一个站点的概率，并选择概率最高的站点。我们使用交叉熵作为损失函数。

示意图1

模型训练

在本部分中，我们介绍如何准备训练数据，特别是真实访问序列，用于训练神经网络。自行车共享系统（BSS）中的路径规划问题类似于运筹学文献中的取送货问题（PDP）[6]。尽管该类问题在以往研究中已被广泛探讨，但由于其 NP难特性，求解仍具有较大难度。商业优化求解器（如 Gurobi）通常能够求解站点数量较少的问题，但在大规模场景下则难以奏效。

在训练数据准备过程中，我们首先预测训练日期内各站点的再平衡区间。然后，在每一天中随机选取k个站点，并借助Gurobi求解这个小型取送货问题（PDP）。我们求解器的输出结果是这k个站点的最优访问序列，该序列可最小化卡车的行驶距离。我们将此序列作为标签数据，而将站点的位置和再平衡区间视为特征。本文中，我们生成了 5000条记录用于模型训练。

模型推理

对于推理过程，得益于循环神经网络的特性，我们首先输入所有候选站点的信息（可能多于k个）。然后使用该网络预测前k个站点（可能包含重复的站点）。我们将已访问站点从候选集中移除，输入剩余的站点并获得接下来的k个预测结果。此过程重复进行，直到所有站点均出现在序列中。

构造可行解

在此步骤中，基于预测序列，我们构建一个可行解（确保卡车和站点的容量约束均得到满足），并确定在每个站点需要取走或投放的具体自行车数量。此步骤中的挑战有两方面。首先，从一个站点取走的自行车数量不仅与该站点之前的站点有关，还与其后续站点相关。例如，如果后续站点也需要自行车，则当前站点不应从卡车上取走过多自行车。因此，我们必须考虑完整的序列以确定某个站点的再平衡数量。其次，卡车可能需要返回车场以获取或存放额外的自行车，但车场并未包含在序列中。

示意图2

评估

在本节中，我们基于大规模真实世界的自行车共享系统交易数据——杭州的数据进行评估。杭州系统被划分为多个行政区，我们重点关注下沙区，该区包含149个站点和一辆调运卡车。我们基于2015年6月至2015年8月的真实使用记录进行模拟。

评估设置

在我们的评估中，我们使用前80天的数据来训练使用预测模型和序列模型。剩余的12天用于测试。在每个测试日，我们首先预测从8:00到14:00的用户需求。该需求用于计算每个站点的再平衡间隔。此预测结果提供给我们的路由模型以及其他基线方法。为了在合理时间内获得最优解以进行性能比较，我们仅考虑成本最高的前20个站点。最后，我们使用真实用户还车/取车事件记录来测试系统性能。然而，评估特定再平衡方法的性能并非易事，因为我们无法确定当没有自行车可供取车或没有空闲车桩可供还车时用户的行为。因此，在本模拟中，我们假设用户在取车时最多等待p秒，而在还车时将一直等待直至有可用的车桩。p在我们的模拟中被视为一个参数。

我们在评估中比较了以下算法。
■ 顺序学习再平衡（SR） ：“SR”是本文提出的方法。我们在三种不同设置下测试“SR”：“SR‐10”、“SR‐15”和“SR‐随机”分别表示站点数量 k 设置为10、15和一个随机数（从10到15）。
■ 容量约束K中心聚类（CKCC） ：CKCC 在 [4] 中被提出，是当前最先进的自行车再平衡方法。该方法中，作者提出了一种先聚类后路径规划的再平衡算法。为了与我们的方法进行比较，我们使用大量聚类，以确保每个站点都会被访问。
■ 基于经验的再平衡（EBR） ：“EBR”是另一个基线方法，代表系统运营商根据其以往经验和知识进行的实际再平衡操作。这些现实世界中的再平衡操作是从操作记录数据中推断得出的。
■ 最优路径再平衡（ORR） ：在“ORR”中，路径规划方案和再平衡数量由优化器求解，而不是使用机器学习方法。

为了评估性能，我们从系统和用户两个角度采用两个指标：1）“服务中断时间”是指站点空置或满载的时间；2）“被拒绝用户数量”是指未能成功借到自行车的用户平均数量。这两个指标均在测试日之间取平均值，且应尽可能小。

示意图3

示意图4

示意图5

重新平衡性能

我们首先在图4中展示关于系统效用的整体性能。系统性能反映了系统服务用户以及避免站点空置或满溢的能力。从图中可以看出，“SR‐10”、“SR‐15”、“SR‐随机”、“CKCC”和“OOR”的性能非常接近，这是因为它们基于相同的预测结果进行再平衡，对用户的服务效果相当。细微的差异是由三种方法选择的不同再平衡数量引起的（预测结果仅提供再平衡区间）。此外，这三种方法均明显优于仅依赖运营人员经验且无预测支持的再平衡方式。

关于用户体验的评估，被拒绝用户数量如图5所示。结果与服务中断性能相似。具体而言，当用户耐心设置为150秒时，EBR与SR‐15相比，被拒绝用户数量从223减少到103。

接下来，我们计算并比较每种算法所需的卡车移动距离。结果如图6所示。可以看出，“OOR”计算出的路径规划方案距离最短，因为其为最优解。“SR‐15”始终优于“CKCC”。平均结果和计算时间如表I所示。“SR‐15”的距离约为“OOR”的2.5倍，但仍明显优于“CKCC”。这表明基于人工智能的方法优于手工设计的启发式方法。我们注意到，更多的站点数量能够带来更好的性能。如表I所示，当站点数量从10增加到15时，平均距离从134.76减少到130.98。然而，更多的站点数量也意味着需要更长的时间来准备训练数据。在计算时间方面，两种启发式方法均远快于精确方法。具体而言，“SR‐15”比“OOR”快约400倍。可以预见，随着站点数量的增加，这种差异将进一步扩大，因为“SR‐15”的计算时间线性增长，而“OOR”的计算时间指数增长。

方法	距离(公里)	计算时间(秒)
OOR	51.30	47.93
CKCC	188.23	0.3573
SR‐15	130.98	0.1161
SR‐10	134.76	0.093
SR‐随机	134.20	0.096

表I. 平均移动距离和计算时间。

结论

本文提出了一种实用的端到端系统，用于解决大规模自行车共享系统中的重新平衡问题。我们首先使用细粒度预测模型来预测未来需求，并计算重新平衡区间。接着，利用神经网络从过去的、小规模的路径规划结果中学习，并将其应用于大规模问题。我们还设计了一种后处理算法，将预测序列转换为可行解。在真实世界数据集上的评估结果显示，我们的方法优于其他基线方法，并提升了用户体验。

尽管我们的模型是在较少数量的站点上进行训练却能适用于大规模系统，这看似违反直觉。部分原因在于我们在同一个自行车共享系统（但不同日期）上进行模型的训练与测试。因此，这一限制使得模型容易受到环境变化或用户模式变化的影响。对于未来的工作，我们希望利用迁移学习技术，以便我们可以在一个地方训练模型，并将其应用于不同地区。