基于强化学习的水下MAC协议

最新推荐文章于 2025-10-15 08:27:13 发布

原创最新推荐文章于 2025-10-15 08:27:13 发布 · 286 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #MAC协议 #水下网络 #Q学习 #移动传感器

基于强化学习的MAC协议（UW‐ALOHA‐QM）用于移动水下声学传感器网络

摘要

海洋探索与开发的需求正在迅速增长，这导致了移动载具市场的快速发展。鉴于移动性，主要挑战是设计一种高度自适应且信令开销（及相关延迟）最小的解决方案，而现有技术尚未完全解决这一问题。因此，水下信道中的移动性及其相关挑战 necessitates 设计一种新的介质访问控制（MAC）方法，该方法能够适应快速变化的环境，且不依赖会导致延迟的信令。本文提出了 UW‐ALOHA‐QM协议，该协议利用强化学习使节点通过试错交互适应时变环境，从而提高网络弹性与适应性。仿真在四种不同场景中进行，其中节点移动模式显著不同。仿真结果表明，与现有针对移动网络设计的协议相比，UW‐ALOHA‐QM在信道利用率方面最多可提升300%。

索引词

介质访问控制，移动传感器网络，强化学习，Q学习，水下声学网络。

一、引言

海洋环境对众多产业日益重要，并受到越来越多的科学关注。水下网络有大量应用，例如：污染监测（如海洋塑料[1]）、地震探测（海啸预警系统[2]）、军事（特别是水下监视[3]）以及管理食物资源（如鱼类养殖场[4]）。然而，由于恶劣的水下环境阻碍了海洋探索，目前大部分海洋尚未被探查。传统的水下监测方法效率极低。传感器节点需要由船舶运送到海洋中部署，以采集任务周期内的数据。在任务结束时，通常需要将传感器回收并带回岸边，以便对采集的数据进行分析。水下通信有望实现从陆地进行低成本的连续长期监测，但要实现这一点，除了其他因素外，还需依赖高效且适应性强的网络。

在陆地环境中，利用无线传感器网络（WSNs）进行监测和数据采集已得到广泛研究。然而，由于水对无线电信号的强烈吸收，成熟的无线电技术无法直接应用于水下环境。相比其他信号，声学信号因其能够在水中远距离传播，成为水下通信最可行的方式。但声学信号在水中的传播速度较慢（≈1，500 m/s），远低于空气中无线电信号的传播速度（≈ 3× 108 m/s）。由此产生的长传播延迟使得水下网络难以实现高信道利用率。

此外，带宽有限且随距离变化，导致基本信道容量较低 [5]。同时，由于GPS信号无法在水下使用，在水下环境中依赖时间同步进行数据通信将带来高昂的成本和复杂的实现问题。

介质访问控制（MAC）层的目标是通过协调节点的多址接入，有效利用共享信道，以实现高信道利用率和良好的服务质量（QoS）。因此，MAC层在水下声学网络中起着至关重要的作用。

为在传播速度慢的情况下最大化信道利用率而做出的努力。MAC协议通常可分为集中式或分布式。集中式协议通常可以通过无冲突调度实现良好的信道利用率，但需要基础设施的支持，例如协调中心节点。分布式 MAC协议不需要此类基础设施，但分布式调度或预留方案会带来较大的开销，用于邻居发现、调度交换以及相关的握手技术等过程。基于载波侦听的技术在水下声学通信中效果较差，由于传播延迟较长且变化较大，通常需要长保护带。集中式协议更适合静态网络，在这种网络中协调节点知晓（或能够获取）所有节点的信息，例如它们的位置、传输优先级或各自的业务负载。因此，传输调度可以相对静态，并可能由中心节点预先定义。

当集中式调度不可行时，必须采用分布式协议。问题在于，分布式协议的信令开销会影响信道利用率，尤其是在传播延迟显著的水下声学网络中。

强化学习是一种机器学习形式，它使智能体（节点）能够在动态环境中通过试错交互，在每个时间单位（称为时隙）学习最优动作[6]。水下环境持续变化，因此水下节点需要能够适应这种时变变化。因此，期望基于强化学习的协议能够通过与水下信道的交互，为水下网络提供这种能力。此前，作者设计了一种适用于准静态网络的强化学习协议，初步研究[7],[8]表明，该分布式协议可以在由固定节点组成的水下网络中实现无需时间同步的无碰撞接入。因此，探索将强化学习应用于移动水下网络具有重要意义。尽管此类学习算法在如此动态的环境中无法收敛，但它们有可能以一定速率跟踪环境变化，从而显著降低相对于随机接入等替代方案的碰撞概率。这种能力，结合最小的开销和低复杂度，相较于复杂的分布式协议更具优势。

本文的具体贡献包括：据作者所知，这是第一篇探索将强化学习用于移动水下网络的论文。

本文提出了一种基于强化学习的协议（ UW‐ALOHA‐QM），以在移动水下网络中应对环境变化，提供弹性和适应性。

•本文证明了强化学习技术是提供一种灵活的

表1. UW‐ALOHA‐QM与现有移动水下网络协议的比较。

拓扑无关解决方案以用于水下网络的介质访问控制，且无需时间同步。

结果表明，与为移动水下网络设计的替代现有协议相比，UW‐ALOHA‐QM 在多种不同场景下能够显著提高信道利用率。

与其他非强化学习方法相比，UW‐ALOHA‐QM的关键优势在于：1）它是一种完全分布式算法，允许节点（和网络）实现自组织；2）它提供了应对节点移动性和持续变化环境的弹性与适应能力。其潜在缺点是， UW‐ALOHA‐QM需要足够的迭代次数来学习环境，否则无法达到理想的信道利用率。在第四节中，对协议的性能以及支持移动性的能力在多种场景下进行了评估和验证。表1比较了UW‐ALOHA‐QM与当前为移动网络设计的MAC协议的关键特性。

本文的第二节提供了针对移动水下网络设计的协议以及用于固定水下网络的基于强化学习的协议的文献综述。在第二节中，A至E小节描述了设计过程和相关参数设置，其中B小节特别介绍了UW‐ALOHA‐QM中使用的强化学习算法。第三节介绍了用于移动网络的 UW‐ALOHA‐QM，本节讨论了水下网络中的节点移动性，并分析了节点移动性对强化学习过程的影响。第四节通过仿真展示了在各种网络配置下 UW‐ALOHA‐QM的关键性能特征的比较性能评估。最后，第五节对全文进行了总结。

II. 前期工作

本节将从两个方面对现有协议进行回顾。首先，简要回顾了针对移动水下网络的先进协议。节点移动性是协议设计中需要考虑的关键问题，因为时变节点位置以及对快速变化环境条件的弹性需求带来了新的考虑因素和任务。其次，回顾了现有的基于强化的MAC协议，并观察到

S. H. Park 等：基于强化学习的MAC协议（UW‐ALOHA‐QM）

它们中的大多数仅考虑伪静态网络，因为重点在于达到收敛状态。基于位置的TDMA MAC（LTM‐MAC）[10]是基于位置的MAC（LT‐MAC）[11]的扩展版本。

LT‐MAC专为固定网络设计，而LTM‐MAC则设计用于支持自主水下航行器（AUVs）与固定节点的协同使用。

LTM‐MAC假设实现时间同步，并引入载波侦听以支持来自AUVs的数据包传输。首先，在水下环境中依赖时间同步可能成本高昂且复杂，因为无法获取GPS信号。

尽管在某些情况下可在部署前对节点进行同步，但时钟漂移对于预期的长期监测应用而言仍可能成为问题。此外，为应对AUV移动性而增加的载波侦听机制由于存在较长的传播延迟，需要设置长保护带，否则无法有效运行。这将导致信道利用率方面的显著开销。

延迟感知的机会式传输调度（DOTS）[12]是一种分布式协议，主要设计用于固定节点部署，但[12]中的研究也探讨了该协议在移动网络中的应用。节点通过侦听一跳邻居传输来进行邻居发现，并构建传播延迟图。

利用该图，协议能够适当地调度并发传输。如果节点持续移动，该图会很快过时，因此DOTS在调度中使用保护带来适应地图更新后的一些变化。该协议使用 RTS‐CTS握手进行信道预留，并要求网络中所有节点的时间同步。自适应MAC[13]使用RTS‐CTS握手，但一个CTS数据包可以对应RTS等待期间接收到的多个 RTS消息，以减少控制消息交换的数量。负载自适应 CSMA/CA MAC [14]针对单跳网络设计，使用 RTS‐CTS握手。它根据业务负载具有两种运行模式。在高负载模式下，一个节点可在一次握手过程后发送两个数据包，以减少控制消息交换次数。正如协议名称所示，该协议使用载波侦听。如果信道被侦测为忙，则采用二进制指数退避（BEB）算法，这会降低可实现的信道利用率。类似停止等待的抛接（JSW）基于MAC [15]也使用RTS‐CTS握手，并假设使用多信道。

感知非对称传播延迟的时分多址（APD‐TDMA )[16]专为AUV网络设计，是用于静态网络的无时钟同步 MAC协议（TDA‐MAC）[17]的扩展。该协议利用上一周期中的数据包到达时间来估计AUVs的未来位置。因此，该协议适用于由以恒定速度移动的节点组成的网络，而不适用于包含速度或方向动态变化的节点的网络。

大多数协议[10]–[15]采用握手过程来预留信道，但由于该过程的持续时间较长，难以跟上由移动节点组成的网络拓扑变化。此外，频繁的控制消息交换用于邻居发现或信道预留，会导致信道出现长时间的空闲、高开销以及低信道利用率，尤其是在水下声学网络中，由于传播速度慢，这一问题更加突出。而且，在JSW [15],的情况下，所需的多信道运行在水下声学网络中难以实现，因为可用信道带宽非常有限，特别是在较长距离通信时。APD‐TDMA [16]是一种独特的协议，因为它能够估计节点的未来位置，但当节点以可变速度或不同方向移动时，该方案效率不高，原因是它基于数据包到达中心节点的最新时间来估计AUVs的未来位置。

已有大量研究将强化学习应用于陆地无线传感器网络中的介质访问控制问题，结果令人鼓舞[18]–[24]。然而，针对水下网络的此类方法的研究发表较少。少数论文提出了路由算法[25]–[29]，且我们仅发现四篇近期发表的研究[30]–[32],[43]，这些研究面向固定节点的水下网络，不包括我们先前的工作[7],[8]。

一篇会议论文[30]讨论了在由固定节点组成的分布式网络中使用时隙ALOHA的方法。该方法假设网络内实现了时间同步。每个足够长的时隙被划分为数据传输阶段和确认（ACK）阶段。通过使用强化学习，每个节点学习到合适的传输顺序，这意味着各个节点能在帧结构化的时隙系统中找到独立的时隙来发送数据包。一旦顺序确定，协议便省略确认（ACK）阶段，从而提高信道利用率。然而，该协议对未来变化极为敏感，因为若缺乏关于数据传输的反馈（ACKs），协议无法感知此类变化。

两篇会议论文[31],[32]发表于2019年。它们受到一篇期刊论文[24]的启发，该论文讨论了异构无线网络中的深度强化学习（DRL）。水下环境与陆地环境完全不同，因此直接将无线技术应用于水下网络并不高效。

首先，该期刊论文[24]考虑了一个包含LTE用户设备和 WiFi设备的异构无线网络。该无线网络中考虑了时间同步和高传播速度，但这些因素并不适用于水下网络。

最后，DRL在确定水下网络中固定节点的传输顺序时增加了复杂度，并浪费了计算资源。

其中一篇会议论文[31]提出了一种时间同步模式和两种非同步模式，以建立不同的仿真场景和同步网络

S. H. Park 等：基于强化学习的MAC协议（UW‐ALOHA‐QM）

在平均信道吞吐量方面表现出最佳性能。该论文忽略了确认数据包从汇聚节点返回的传播延迟，这一假设并不实际。此外，论文未描述所需传播距离信息（估计值）如何获取，而该信息是数据传输的前提条件。

另一篇会议论文[32]假设了时间同步，并在数据传输之前通过信标消息交换获取汇聚节点与传感器节点之间的距离估计。由于传播延迟较长，当前动作的学习历史不包括最近反馈。这种奖励方法可以在固定网络中工作，但在移动网络中无法正常工作，因为与先前经验相关的环境条件已经显著改变。

最近的一项研究[43]于2020年9月发表，提出在多信道系统中使用深度学习进行信道选择。该协议采用时隙ALOHA结构，并假设时间同步。仿真比较了学习机制、随机选择以及需要预先获取网络信息的优化传统选择所得到的结果。随机选择表现出最差的信道利用率，而优化选择表现出最佳性能。学习方法在仿真初期未能达到最佳吞吐量，但在足够多的学习迭代后接近优化的吞吐量。此外，该研究浪费了计算资源，因为它仅在一时隙中选择一个信道。而且，由于声学信令信道非常有限，多信道系统并不适合水下通信。

总之，目前大多数针对移动水下网络的现有协议都是为固定节点网络设计的MAC协议的扩展版本，且假设存在时间同步。其中大多数协议通过增加额外功能（如频繁的控制消息交换或带有长保护带的载波侦听）来应对节点移动性。然而，这些方案会导致高传播延迟或低信道利用率，因此在移动水下网络中效率不高。与这些用于处理节点移动性的补充措施不同，学习方法能够提供网络适应性，从而在面对网络变化时实现良好的信道利用率、低开销和低复杂度。此外，目前所有为水下网络设计的基于强化学习的协议都考虑的是由固定节点组成的网络。强化学习在时变环境中具有潜在的有效性，因为它能够基于与环境的持续交互提供内在的适应性。对于包含移动节点的水下网络，我们无法追求收敛。此类方法的有效性关键在于学习算法是否能够以足够快的速度适应主要的环境变化。我们提出了据信是首个面向移动节点的基于强化学习的MAC协议（ UW‐ALOHA‐QM）

水下网络并研究其提供一种拓扑无关的介质访问控制方法的潜力。

III. UW‐ALOHA‐QM

移动性总是给网络带来复杂度，因为它导致网络中出现大量变化，包括更显著的时变信道条件、连接性的变化以及传播延迟的变化。因此，节点移动性在MAC协议设计中构成了一个特殊挑战，需要加以解决[9]。

对于静态拓扑，研究表明，可以通过学习过程从初始的随机接入实现调度结果，从而实现高信道利用率。

采用此类方法的优点在于典型算法固有的分布式特性，使其不依赖于基础设施，因此适用于广泛的网络拓扑结构，甚至可能适用于随时间变化连通性的网络。典型算法还具有低信令开销和低复杂度的特点。在移动网络中，收敛难以实现，即使实现也极为短暂。因此，在移动网络中需要考虑网络弹性。我们将网络弹性定义为在正常运行发生改变的情况下仍能提供并维持良好服务水平的能力[33]。强化学习提供了一种适应时变环境的方法，节点通过自身经验进行学习。如果学习过程相对于环境变化足够迅速，则基于强化学习的MAC协议能够在动态环境中提供有效的自适应能力，并在性能上优于文献中已知的其他方法。

基于强化学习的移动网络MAC协议的理想能力是提供对时变环境条件更有效的适应性，从而在性能方面（例如信道利用率）相较于不包含学习机制的基准协议实现更高的水平。由于信令开销最小且无需低效的握手过程，该协议在信道利用率性能方面有望优于其他先进协议。

在图1中，预计一种设计有适当保护时间的标准分布式协议能够承受环境中任何可预见的变化。

例如，如果由于移动性导致传播延迟发生变化，则期望该协议具有足够的保护带来应对这种移动性。另一方面，在学习机制下，期望在静态或准静态环境中，学习过程能够对节点进行迭代，并且学习方法能够收敛到一个稳定的解。然而，如果环境发生任何变化，则无法保持收敛。图1展示了在离散时间点环境发生显著变化的一个示例。这将导致学习过程受到干扰，并且性能可能会下降。

示意图0

然而，学习方法随后可以再次开始改善情况，直到网络发生另一次重大变化。

A. UW-ALOHA-QM帧结构

时间被划分为重复帧，每个帧包含若干时隙，如图2所示。UW‐ALOHA‐QM的主要思想是应用强化学习，使每个节点（智能体）能够基于历史经验独立学习在重复帧结构中的优选时隙，并在连续帧的优选时隙中发送数据包。对于UW‐ALOHA‐QM，节点无需同步，因此帧起始时间被视为随机分布。

一个UW‐ALOHA‐QM网络的示例是一个简单拓扑，其中四个不同的传感器节点（N1、N2、N3和N4）部署在距汇聚节点不同距离的位置。这四个节点采集数据并将信息发送到单一的汇聚节点。在UW‐ALOHA‐QM中，每个节点每帧允许在一个时隙内发送。对于该示例网络，每帧包含四个时隙（帧大小S= 4），对应于网络中的四个节点（N= 4），如图3和图4所示。

因此，每个节点每帧有一次机会传输采集的数据，并且需要在每个连续的帧中选择四个时隙中的一个来发送数据包。在所示示例中，N1使用时隙2，N2也使用时隙2。（注意：为了简化，图3中省略了N3和N4的数据传输流程）。

示意图1

示意图2

示意图3

每个时隙设计用于支持数据包向汇聚节点的传输以及确认应答（ACK）包的返回接收。为实现这一点，时隙持续时间需要考虑移动节点到接收方在两个方向上的最大传播时延，并包含一个保护带。这个非常小的保护带仅用于应对最大时延被低估的情况。一个时隙持续时间（Ts）足以容纳一个数据包（Tdp）、两倍的传播延迟（τp）、一个ACK包（Ta）以及保护时间（Tg）。时隙持续时间（Ts）可通过公式（1）计算得出。

$$ Ts=(Tdp+ Ta+ Tg)+ 2×τp $$ (1)

UW‐ALOHA‐QM使用确认应答来确定数据包是否已送达。这不仅是为了提供可靠通信，也是学习算法运行的关键要求。在发送数据包后，如果生成节点在保护时间结束前未从汇聚节点接收到确认应答，则该传输被视为失败，必须启动重传。

影响时隙持续时间（Ts）的最重要因素是传播延迟（τp），如公式（1）所示。因此，由于传播速度慢，在典型的水下网络中，时隙持续时间变得较大。在数据包和确认应答传输过程中，信道保持空闲状态，如图3所示。这种开销是一个潜在问题，也是将该帧结构应用于水下声学网络与陆地无线电网络相比的一个关键差异。

然而，这一问题可通过本文后续章节中所述方法加以克服。

B. Q学习

UW‐ALOHA‐QM基于无状态Q学习[6],，该方法用于无需用状态表示环境的场景。在UW‐ALOHA‐QM协议中，节点使用该学习机制在每帧中选择一个独立时隙

S. H. Park 等：基于强化学习的MAC协议（UW‐ALOHA‐QM）

发送一个数据包。所有节点都维护一个Q表，其中包含各个Q值（每帧中的每个时隙对应一个Q值），如图4所示。

公式(2)用于确定Q值如何更新:
$$ Qt+1(i, k)= Qt(i, k)+ a(r − Qt(i, k)) $$ (2)

其中，第i个节点在帧的第k个时隙发送了一个数据包。Qt表示时间t时刻的Q值，t是一个时间周期（即一个帧）， a是学习率，r是奖励值。ALOHA‐Q [21]的标准实现中，若传输成功（即生成节点成功接收确认应答），则使用a= 0.1 和 r= 1；否则，r= −1。

考虑图5所示的示例，描绘了单个节点的Q表。由于Q表中的所有Q值初始均为零，该节点在下一帧中随机选择一个时隙进行数据包传输。如果该节点在保护时间结束前接收到正向确认应答，表示传输成功，则根据公式(2)的应用，Q表中第1个时隙的Q值将更新为0.1。因此，经过一个帧后，Q表的Q值变为0.1 / 0 / 0 / 0，此时第1个时隙在该节点的Q表中具有最高的Q值。

在第二帧开始时，由于该时隙的Q值在节点的Q表中具有最高值（即0.1），节点将在第1个时隙发送数据包。如果节点在保护时间结束前未接收到ACK包，则认为传输失败，并将Q表中第1个时隙的Q值更新为‐0.01。因此，在第二帧结束后，Q表中的Q值为‐0.01/0/0/0。

在第三帧开始时，节点会以相等的概率在第2、第3和第4个时隙中随机选择，因为它们的Q值均为最高的零。通过重复这种试错学习，并且只要每帧中有足够的时隙，可以证明各个节点能够找到独立时隙进行发送，从而避免在网络环境足够静态[8]的网络中与其他节点发生碰撞。

示意图4

C. 异步操作

由于水下无法获取GPS信号，UW‐ALOHA‐QM提出了异步操作。在水下环境中依赖时间同步可能成本高昂且复杂，而且时钟漂移可能会对预期的长期监测应用造成问题。

表2. 在由100米半径（r）和25个节点组成的网络中，根据帧大小（S）的信道利用率。

图3提供了UW‐ALOHA‐QM异步时序的一个示例。两个生成节点N1和节点N2在不同的时刻开始其帧，而汇聚节点无需遵循帧结构。因此，网络中的所有节点（包括汇聚节点）都不需要与其他节点同步，每个节点完全独立运行。

预计在缺乏时间同步的情况下，由于从传感器节点发送的数据包将在随机时间到达汇聚节点，因此会在汇聚节点处发生碰撞。然而，在具有大量节点且传播延迟相对较大的水下环境中，UW‐ALOHA‐QM能够实现无论是否存在时间同步都相同的信道利用率。这一点通过针对包含超过25个节点的网络进行的密集仿真得以验证，详细结果如[8]所示。之所以能够实现这一点，是因为汇聚节点处显著的空闲时间足够长，可以容纳一个帧内所有传感器节点发送的数据包。此外，当每帧中存在足够多的时隙时，强化学习使得节点能够学习到在汇聚节点空闲时间内可成功接收数据包的独立时隙。

D. 帧大小的优化

ALOHA‐Q方案的标准实现中，帧大小（S）被设置为等于节点数量（N），但由于时隙持续时间较长以及移动节点带来的不同且时变的传播延迟，该方法在此水下网络中效率不高。因此，探索如何优化帧大小（S）以提高理论信道利用率是很有意义的。表2显示了根据帧大小（S）从[8]得出的可实现信道利用率的差异。对于表2中所示的每个结果，均进行了100次仿真，每次仿真运行中所有节点的帧起始时间都不同且为随机设定。表中的理论最大信道利用率值指的是UW‐ALOHA‐QM在由固定节点组成的网络中所达到的信道利用率。

索引比（B）在先前的研究[8]中被引入，表示“汇聚节点在一帧内可用于接收的总可用时间”与“所有节点在一帧内生成的数据包持续时间之和”之间的比率。该指数（B）可通过公式(3)表示。此指数代表了汇聚节点处的理论可用空间

S. H. Park 等：基于强化学习的MAC协议（UW‐ALOHA‐QM）

用于接收与帧内持续时间相关的数据包，该持续时间用于数据位。例如，在表2中，当N= S = 25时，汇聚节点理论上比在一个帧中从25个节点各接收一个数据包所需的持续时间多出8.98倍的空间。

$$ B= S ×(2× τp+ Tdp) / N × Tdp $$ (3)

表2显示了帧大小（S）与平均信道利用率之间的权衡。在表中，随着帧大小（S）的减小，平均信道利用率得到提高。然而，当达到某一阈值时，由于竞争程度增加，信道利用率反而下降。这指的是帧中的时隙过多会浪费信道容量，因为每个帧中将存在大量未使用时隙；而帧大小（S）过小则无法为竞争节点提供足够持续时间以找到无碰撞的空间。因此，有必要找到最优帧大小以最大化平均信道利用率。

参考[8],的仿真结果发现，当在100米到1000米的网络规模中使用25个节点时，通过减小帧大小（S），可将UW‐ALOHA‐QM的信道利用率提升至索引比（ B）值为1.5；否则（即B<1.5），由于碰撞增加，信道利用率会下降。例如，在表2中，UW‐ALOHA‐QM采用每帧5个时隙（B=1.8>1.5）时表现出最高的信道利用率，而当采用每帧4个时隙（B=1.44<1.5）时，由于索引比（B）值低于1.5，信道利用率下降。因此，本文提出采用一种称为Sm的最优帧大小，该帧大小是在给定网络规模（R）和网络中节点数量（N）的条件下，满足索引比（B）大于或等于1.5时实现最大信道利用率的最小帧大小。这是一种通用的方法，为了便于理解，本文描述了一些具体参数作为特定示例。

E. 均匀随机退避

尽管每帧时隙数（S）较少有利于提高信道利用率，但需要额外的机制来实现这一点。较少的时隙数意味着动作空间有限，并且对于相对较多的节点而言，传输时序较为集中。例如，在表2中，25个节点的最优帧大小（Sm）为5。在这种情况下，所有节点在每一帧中仅有5个时隙，这意味着仅靠五个传输时间选项，在汇聚节点处仍存在较高的残余竞争可能性。因此，有必要允许节点进一步调整其帧起始时间，以便相对于其他节点进行偏移，从而填补汇聚节点处的空闲时间。换句话说，每个节点不仅需要学习合适的独立时隙，还需学习适当的帧起始时间，以避免碰撞。

提出了一种均匀随机退避（URB）方案，以提供节点调整其帧起始时间的机会。URB可以通过根据

示意图5

由节点移动引起的不断变化的网络环境。

图6展示了URB的概念。为简化起见，图6中省略了N3和N4的数据传输流程。URB为节点提供了调整其帧起始时间的机会，但由于以下两个原因，显著降低了信道利用率。首先，当前采取的动作是基于过去不同网络环境下进行的学习，这意味着邻近节点已经移动，位置发生了变化。因此，Q表中的最大Q值（Qt）并不总是节点的最佳动作，所以在选定时隙发送数据包可能会在移动网络中引发碰撞。此外，移动性使得 UW‐ALOHA‐QM的学习过程变得“短视”[34]。每次碰撞都会触发URB，而移动帧起始时间会为节点带来新的网络配置。这种频繁的URB浪费了历史经验，因为最优动作是基于启发式奖惩得出的。因此，URB（新的帧起始时间）导致所有节点必须在每一帧都从头开始学习新环境，从而造成低效且不必要的学习过程。

因此，需要一种新的URB设计来实现更高效的学习。只有当节点能够确定当前最高的Q值不是最优动作时，才应启动URB。利用公式(2)，我们可以计算出节点何时需要触发一个新的学习过程。假设由于移动性，一个节点在每次传输时都发生碰撞，并将初始Q值设为1（即 Q0= 1），则Q值从 1 → 0.8 → 0.62 → 0.458 →0.3122 → 0.18098 → 0.062882变为第7次连续碰撞时的 −0.043406。在学习率（a）为0.1的情况下，七次连续失败会导致Q值回到 ≈零。先前的研究[35]对无线射频网络中的Q值进行了分析，结果也相同。

因此，本文提出了7次均匀随机退避（7‐URB）方案，该方案在移动网络中发生七次连续碰撞后提升 URB方案。7‐URB利用已有的Q值并去除不必要的学习过程。因此，UW‐ALOHA‐QM能够通过调整帧时序来提高网络弹性与适应性，并避免碰撞。

IV. 仿真

已进行仿真以评估该基于强化学习的MAC协议在移动水下声学网络中的能力。

协议UW‐ALOHA‐QM在移动水下声学网络中的应用。已建模四种不同场景，并在这些场景中评估其性能。在四种不同场景中进行仿真的目的是展示 UW‐ALOHA‐QM应用于不同场景时的潜力，更好地说明其使用范围，并提供关于UW‐ALOHA‐QM相对于为每种网络类型设计的不同协议的性能表现的洞察。

这些场景大致分为
- 锚定或固定传感器网络
- 自由漂浮传感器网络 [12]
- 自主水下航行器辅助网络[10]
- 自主水下航行器传感器网络[16]。

第一种场景是参考场景，用于说明采用典型参数的 UW‐ALOHA‐QM的基本运行方式。其他三种场景及相应的参数来自其他MAC协议研究[12],[10],和[16]。选择这四种场景主要基于两个原因：1）提供差异显著的移动性设置和案例，从而对UW‐ALOHA‐QM的能力进行全面评估；2）后三种场景和参数取自其他MAC协议研究的文献[12],[10],和[16]，这些研究是针对特定场景开发的，因此可以将UW‐ALOHA‐QM与这些论文中提出的新近方案结果进行直接比较。对于每种场景，均已提取出相应论文中的结果，通常包括作者提出的方案以及其他一些对比方案。此外，UW‐ALOHA‐QM也在这些场景中进行了仿真。

在这些场景下，UW‐ALOHA‐QM的信道利用率在汇聚节点处进行测量。信道利用率定义为汇聚节点成功接收数据流量的时间所占的比例。公式(4)展示了UW‐ALOHA‐QM的信道利用率（U）的测量方法:

$$ U= D / (ruw × F × S × Ts) $$ (4)

其中，D表示在汇聚节点成功接收的数据比特总数，r uw为以bps为单位的数据速率，F为测量的总帧数，S为每帧中的时隙数，Ts为一个时隙的持续时间。

A. 锚定或固定传感器网络

该场景表示由固定或锚定节点组成的水下网络。为了展示UW‐ALOHA‐QM的网络弹性，考虑了这种不连续移动场景，其中锚定或固定的节点根据洋流以随机速度移动，并假设节点具有空间相关性。空间相关性通常被用作水下节点定位研究中的基本假设[38]–[40]。

表3. 典型的UW‐ALOHA‐QM参数。

在一个单跳随机拓扑中存在25个传感器节点，生成节点随机分布在以一个中心汇聚节点为中心的圆形覆盖区域内。所有节点均处于彼此的干扰范围内。所有丢失的数据包均由数据包碰撞导致。为了提供一种最坏情况模型，任何数据包接收上的重叠都被视为导致整个数据包丢失。

UW‐ALOHA‐QM的典型参数列于表3中。数据包大小、ACK大小和保护时间（以比特为单位）基于先前的研究[21]。针对实际水下环境设置，数据速率（ruw）选择市场上现有的一款水下调制解调器所支持的 13,900 bps [41]。在节点速度方面，本文参考了爱尔兰与英国之间海域的潮流能站点处的速度分布[42]，结果显示海底以上0至40米范围内的潮流速度小于4 m/s。因此，本场景中节点移动性采用2至4 m/s之间的随机速度。所有节点在二维空间内位于100米半径圆（R）中的均匀分布的随机位置上开始运行。每个节点分别在 30分钟、60分钟和90分钟时开始第一次、第二次和最后一次移动。每次移动时，节点以2至4 m/s范围内均匀分布的随机速度，在随机方向上持续移动30秒。移动方向在0至 2π半径范围内随机选取。为了对比移动性与静态情况的影响，我们考虑了一些短暂运动事件，其间节点发生短时间移动，而其他节点则假设保持静态。

示意图6

图7显示了UW‐ALOHA‐QM信道利用率随时间的变化情况，并展示了该协议的网络弹性。网络部署后，所有节点立即启动学习过程，并可达到理论信道利用率。30分钟后，所有节点同时开始移动（例如受波浪影响），导致节点位置发生变化，进而引起网络拓扑结构和传播延迟的改变。因此，节点需要学习新的环境，并再次达到最大信道利用率。这证明UW‐ALOHA‐QM能够在没有协调节点或额外控制消息交换的情况下，学习并适应网络中的变化。

理论最大信道利用率表示UW‐ALOHA‐QM在由固定或准固定节点组成的网络中达到的稳定信道利用率。在这种情况下，所有节点使用相同的时隙编号并保持帧定时，从而形成一种集中的数据传输模式，并且该模式被重复执行。因此，理论信道利用率可以通过考虑单个帧中可用于数据传输的时间比例[8]来确定，如公式 (5)所示。例如，这种锚定/固定的移动场景使用表3中的参数可实现0.631 爱尔兰：(25个节点 ×75.108毫秒) / (14个时隙 × 212.47毫秒)。

$$ \text{Theoretical maximum} \, U=(N×Tdp)/(Sm×Ts) $$ (5)

B. 自由漂浮传感器网络

这种移动网络的特点是自由漂浮节点由洋流分布。UW‐ALOHA‐QM 被评估并与专为自由漂浮传感器网络设计的 DOTS [12] 进行比较。DOTS 使用蜿蜒洋流移动性（MCM）模型 [36] 来模拟节点移动。

DOTS最初是为包含固定节点的网络设计的，但也针对包含移动节点的网络进行了评估。DOTS采用 RTS‐CTS‐DATA‐ACK过程，但允许利用时间和空间重用实现并发传输。节点侦听一跳邻居的传输，并从 MAC头部获取邻居节点的传播延迟信息。MAC头部包含一个时间戳，用于指示数据包从发送方发出的时间，从而估计发送方与接收方之间的传播延迟。该信息存储在每个节点的映射中，各节点根据映射中的侦听到的信息预测未来的数据传输。DOTS定义的参数如表4所述。

最大节点速度限制为0.3米/秒 [36]。研究表明，当负载量超过1爱尔兰时，DOTS的信道利用率达到0.2爱尔兰。尽管

表4. 自由漂浮场景评估所用参数。

示意图7

图8将UW‐ALOHA‐QM的仿真信道利用率与其他协议在[12]中报告的结果进行了比较。信道利用率以一致的方式进行测量，取50次仿真运行的平均值，每次仿真运行持续1小时。在UW‐ALOHA‐QM的评估中，节点从仿真开始时即以0.3米/秒的恒定速度移动，直至仿真结束。唯一的区别是DOTS使用时间同步，而 UW‐ALOHA‐QM则不需要。在此网络配置下， UW‐ALOHA‐QM的理论最大信道利用率为0.624 爱尔兰 [8]，但由于节点移动性的影响，该协议实际达到的信道利用率为0.617 爱尔兰。考虑到网络中的移动节点以非常低的速度移动，这一微小的信道利用率差异显得尤为突出。

表5提供了在由[12]定义的网络配置中 UW‐ALOHA‐QM的参数。对于一个大小为430米、包含10个节点的网络[12],，在B大于1.5的条件下，最小帧大小为2（Sm）。在此网络配置中，B为1.6，意味着汇聚节点的容量比10个数据包持续时间总和多60%。换句话说，如果网络是时间同步且经过调度的，汇聚节点将能够接收16个数据包。

表5. 自由漂浮场景中使用的参数。

示意图8

图9展示了汇聚节点在不同帧中的数据包接收情况。汇聚节点实际上没有如图3所示的时隙和帧结构，但在图9中进行了示意，以便于理解UW‐ALOHA‐QM的理论概念。10个传感器节点向汇聚节点发送数据包，且它们之间未实现时间同步，因此10个数据包会在随机时间到达汇聚节点。当节点速度为0.3米/秒时，一个传感器节点在一帧时间内移动0.39米，导致每帧传播延迟变化0.00026秒。该变化仅占一帧的0.04%，与占一帧6.24 %的一个数据包相比非常小。因此，汇聚节点的空闲时间可作为保护带来应对由节点低速移动引起的传播延迟微小变化。

例如，在图9中，N1以0.3米/秒的速度远离汇聚节点，从N1发送的帧X+1的数据包比前一帧X稍晚到达。然而，汇聚节点的空闲时间允许该数据包被接收而不会发生碰撞。N5远离汇聚节点移动，N8则向汇聚节点移动，它们的数据包在帧X+1发生碰撞，如果碰撞持续连续7帧，则这两个节点将触发7‐URB，随后尝试不同的帧起始时间，以在汇聚节点找到合适间隙。因此，在节点移动较慢（0.3米/秒）的情况下， UW‐ALOHA‐QM能够保持良好的信道利用率。

示意图9

图10比较了不同协议在节点速度从0.3米/秒到3米/秒变化时的信道利用率。所有节点在一小时的仿真时间内持续移动。DOTS协议无论节点速度如何，均表现出0.2 爱尔兰的信道利用率，因为DOTS采用了足够持续时间的保护带来适应由节点移动性引起的接收时序变化及其对传播延迟的影响。然而，当节点以3米/秒的速度移动时，UW‐ALOHA‐QM的平均信道利用率相对于理论最大信道利用率下降了12%。这是由于来自不同节点的数据包在接收端的相对时序

表6。触发7‐URB的平均次数。

汇聚节点变化更加迅速，且学习算法在适应这些变化时效果较差。优选时隙的Q值会因此降低。

随着节点速度的增加，7‐URB被触发的频率更高。表6给出了在50次仿真运行中，每种速度下7‐URB被调用的平均频率。随着节点速度的增加，汇聚节点处额外的60%时间不足以应对高移动性。当节点速度为0.3米/秒时，7‐URB平均每86帧触发一次；而当节点速度为 3米/秒时，为寻找合适的帧起始时间以实现成功传输，7‐URB触发更为频繁（平均每8帧触发一次）。

综上所述，仿真结果表明，尽管 UW‐ALOHA‐QM采用异步操作，但在自由漂浮节点场景下，UW‐ALOHA‐QM始终能够提供可观的信道利用率，并优于DOTS及其他协议。DOTS使用了足够的保护时间来应对节点移动和握手过程，这显著降低了可实现的信道利用率。然而，UW‐ALOHA‐QM采用学习方法，所有节点通过与时间变化环境的交互，独立学习并找到独立时隙和合适的帧起始时间，从而相较于其他现有协议具有更好的适应性和更高的信道利用率。例如，当节点速度为0.3米/秒时，UW‐ALOHA‐QM提供的信道利用率比DOTS高出3倍以上（UW‐ALOHA‐QM为 0.617 爱尔兰，DOTS为0.2 爱尔兰）。

图8和图10还说明了不同MAC方法的特征。CS‐ALOHA使用随机接入，且其信道

S. H. Park 等：基于强化学习的MAC协议（UW‐ALOHA‐QM）

利用率因此高度依赖于业务负载（G），但不依赖于节点速度。DOTS、DCAP和S‐FAMA协议在数据传输前进行握手，由于握手方案不需要环境的先验信息，也不与环境变化交互，因此其性能不受环境变化（即本场景中的节点速度）的影响。然而，由于频繁的控制消息交换，这些协议的底层性能非常低，并且如果在移动网络中节点在过程中以很高速度移动，握手过程可能失败。

相反，该学习方法的信道利用率与环境变化相关，因为它与环境进行交互。高速移动意味着网络环境快速变化。因此，节点速度对UW‐ALOHA‐QM的性能产生影响。然而，可以看出，在此特定环境中，该学习机制能够使网络足够快速地适应环境变化并实现网络弹性。因此，UW‐ALOHA‐QM的信道利用率可显著高于其他协议。

C. AUV辅助网络

这些网络由固定传感器节点和一个或多个自主水下航行器组成。LTM‐MAC [10] 和自适应负载CSMA/CA [14] 协议是为这种类型的移动网络设计的。LT‐MAC[11] 是为小规模静态水下网络提出的，而LTM‐MAC [10] 是针对固定水下网络中额外加入的自主水下航行器的扩展版本。LTM‐MAC假设自主水下航行器对网络拓扑有足够的了解，以支持固定传感器节点。基本上，LTM‐MAC协议增加了载波侦听机制来应对自主水下航行器的移动性。然而，为应对自主水下航行器移动性而增加的载波侦听机制由于较长的传播延迟需要长保护带，否则无法在水下环境中有效运行。LT‐MAC和LTM‐MAC基于时分多址（TDMA），因此需要时间同步，并且在数据传输之前就确定了静态节点的传输顺序。然而，这些协议根据数据传输前延迟检测阶段获得的结果，为每个节点使用动态时隙长度。因此，所有节点应在每次数据传输前广播控制消息以指明时隙持续时间。

在此AUV辅助网络场景中，一个自主水下航行器在每次仿真运行期间持续移动，而其他节点则静止于海床上。UW‐ALOHA‐QM采用相同的网络配置和参数，但应用异步操作。基于期望比率B的帧大小（Sm）为6，该场景下UW‐ALOHA‐QM在饱和流量模型中的理论最大信道利用率为0.58 爱尔兰[8]。表7总结了AUV辅助场景中使用的参数，这些参数在[10]中定义。

表7. 用于AUV辅助场景评估的参数。

示意图10

图11比较了不同业务负载（G）下的信道利用率。LTM‐MAC在一个仿真试验中评估了1000秒的时间段，但在仿真期间，自主水下航行器仅以3节的速度移动了1540米。考虑到网络规模为1500米，这不足以访问随机分布在圆形区域内的每个节点，因此针对UW‐ALOHA‐QM的评估，额外执行了更长的仿真时间：对于UW‐ALOHA‐QM，仿真时间为 100帧持续时间以及1000秒（40帧）。

当业务负载（G）非常小时，UW‐ALOHA‐QM 的信道利用率低于 LTM‐MAC。如果数据传输频率非常低，UW‐ALOHA‐QM 将缺乏足够的尝试次数来找到合适的时隙和帧起始时间，从而无法实现无碰撞接收。在相同的业务负载水平下，当仿真时间更长（100 帧）时，UW‐ALOHA‐QM表现出更好的性能，因为它有更长的时间来寻找合适的传输时间。在实际部署中，运行持续时间当然会远长于该值，结果表明，在此场景的移动性水平下，UW‐ALOHA‐QM在除极低业务负载水平外的所有情况下，均能提供比其他方案更高的信道利用率。

D. AUV网络

AUV网络由具有感知功能的AUV组成。路径规划通常被使用，例如，在事故区域以之字形路径搜索残骸 [37]。因此，

表8. 用于AUV辅助场景评估的参数。

示意图11

移动模型根据应用需求而不同。目前已有一些关于 AUV网络的研究：APD‐TDMA [16]和BTB‐TDMA [43]。UW‐ALOHA‐QM在[16]描述的场景中与 APD‐TDMA进行了比较，因为APD‐TDMA是最先进的，并且性能优于BTB‐TDMA[43]。

APD‐TDMA [16]是为自主水下航行器传感器网络设计的，它是为静态网络设计的TDA‐MAC协议[17]的扩展。APD‐TDMA包含两个阶段：初始化和传输。APD‐TDMA在初始化阶段需要进行充分的控制消息交换，以获取所有自主水下航行器的位置，然后才能开始数据包传输的传输阶段。传输阶段由周期组成，这一概念与UW‐ALOHA‐QM中的帧类似，但APD‐TDMA不使用确认应答。在传输阶段，每当汇聚节点处的数据包丢失数量超过某一阈值时，APD‐TDMA将重复执行初始化阶段。

表8 提供了由APD‐TDMA定义的AUV网络配置，图12 比较了现有协议在不同节点数量（N）下的网络中信道利用率。

APD‐TDMA 仅在传输阶段测量信道利用率，并未反映重新初始化过程中的具体分组丢失水平，因此很难估计重新初始化发生的次数。因此，直接比较 APD‐TDMA 和 UW‐ALOHA‐QM 是不公平的，因为 UW‐ALOHA‐QM 的信道利用率是从开始阶段起测量的一个仿真试验直到结束。然而，我们在网络中节点数量（N）较少的情况下比较了这两种协议，因为使用较少的节点可能产生更少的碰撞。UW‐ALOHA‐QM表现出较低的信道利用率，但可以预测，如果同时将APD‐TDMA的多次初始化阶段也纳入信道利用率的测量， UW‐ALOHA‐QM可能比APD‐TDMA提供更好的性能。

UW‐ALOHA‐QM的理论最大信道利用率由公式(5)计算得出。在该方程中，数据包持续时间（Tdp）和时隙持续时间（Ts）在此场景的仿真过程中保持不变，而节点数量（N）和最优帧大小（Sm）则发生变化。表9提供了AUV 网络场景下不同设置中UW‐ALOHA‐QM的理论信道利用率。如表所示，节点数量（N）线性增加，但由于B大于 1.5这一条件，最优帧大小（Sm）并未线性变化。因此， UW‐ALOHA‐QM在图12中呈现出锯齿状，这是如[8]中所解释的典型特征。

APD‐TDMA 和许多其他协议需要一个初始化阶段，以获取水下环境中移动节点的位置信息，然后调度数据传输。然而，UW‐ALOHA‐QM 不需要这样的阶段，因为节点进行数据传输时不需要先验信息，唯一重要的是基于学习经验的 Q 值，该值与网络中其他节点无关。尽管 APD‐TDMA 知道 AUVs 的位置信息，但由于 AUVs 持续移动，这些信息很快失效。因此， APD‐TDMA 基于初始化或当前数据传输接收时序的预测方法仅适用于匀速运动，而不适用于随机方向和速度的运动。UW‐ALOHA‐QM 则不使用预测，而是通过学习并适应变化的环境，因此 UW‐ALOHA‐QM 可用于节点以不可预测的方式移动的网络。BTB‐TDMA [44] 在图12中显示出最低的信道利用率，因为它本质上使用足够长的保护时间来应对 AUV 移动性，尽管它需要时间同步。

V. 结论

本文中，我们提出了一种基于强化学习的水下移动传感器网络MAC协议，即UW‐ALOHA‐QM。现有协议针对水下移动网络通过频繁的控制消息交换等额外支持措施来应对节点移动性，而不是采用我们的方法来提高网络弹性。

采用强化学习方法，UW‐ALOHA‐QM 在多种移动网络场景下提供了良好的信道利用率和适应性。在最佳情况下，UW‐ALOHA‐QM 的理论最大信道利用率可达 0.66 爱尔兰，与水下网络的集中式协议相当。本文提出的方法适用于移动水下网络，尤其适用于节点轨迹不可预测的水下网络。仿真结果表明， UW‐ALOHA‐QM 在不同场景和配置下通过提高网络灵活性，普遍优于现有协议。该方法为介质访问控制问题提供了一种有效的拓扑无关解决方案。