面向物联网的无人机在线速度控制与数据捕获
一种机载深度强化学习方法
无人机使能的物联网网络
可扩展物联网网络和可再生能源方面的最新进展,使得在广阔区域内部署大量能量采集供电的物联网节点成为可能,这些区域的持续电源有限,主要用于感知天气、环境以及交通和道路状况。物联网节点可以从多种可再生能源中逐步采集能量,例如太阳能电池板[1]、驻极体风力涡轮机[2]和无线能量传输[3]。可以从这些节点收集感知数据。
为了协助物联网网络中的数据采集,无人机(UAV),也称为drones,可以作为空中平台与节点通信并捕获有价值的信息。无人机可用于访问大量节点。部署在目标区域,凭借其出色的移动性和机动性,无人机可以移动到计划传输数据的节点附近[4]。节点将任务卸载给无人机,由无人机协助进行计算[5]。
作为一种远距离无线通信技术,低功耗广域网(LPWAN)已被部署用于为农村地区的物联网系统提供连接性,例如在农业和农耕领域。LPWAN可实现长达10公里的远距离传输,但其数据速率较低(通常为几十千比特每秒),随之带来较高的传输延迟[6]。相比之下,无人机可以靠近每个物联网节点,形成以短距离视距为主的通信链路,从而获得显著的信道增益,并支持高速数据传输[7]。
案例研究:道路监控
大量由可再生能源供电的物联网节点可用于监测道路交通和紧急事件[8]。每个物联网节点都配备有太阳能电池板、风力发电机或无线电源接收器,以收集其运行所需的能量。由于周围环境条件不同,各节点间的电池能量可能存在显著差异。每个节点以应用特定采样率生成数据包,并将等待传输的数据包缓存在缓冲区中。
物联网节点可以是部署在路边的轻型摄像头和便携式测距仪,用于录制视频和图像以及收集环境数据。无人机配备有无线收发器和机载处理器,需要发送高带宽的数据突发流,被指示在无人区域上空飞行,该区域几乎没有5G服务。
无人机可以选择从哪些节点收集数据,并且可以决定是立即将任何紧急信息转发到远程指挥中心,还是将其他数据进行缓冲,直到下次经过时再将信息卸载到指挥中心。大多数情况下,紧急数据量较小,而其他信息可能较大,适合利用无人机与指挥中心之间相对较短距离的传输,此时信道条件良好。
可以提前仔细规划无人机的飞行轨迹,以确保所有物联网节点都能被该无人机[9]访问。以图1中的示例为例,无人机可以在高速公路的上方飞行。它能够在线计算出一种速度控制和数据采集(VCDC)策略,以确定其巡航速度(通过选择下一个航路点)以及将从中收集数据的下一个物联网节点。无人机会发送一条简短的信标消息,通知所选节点其决策。该节点也可以通过信标消息测量信道的信噪比(SNR)。该节点的状态信息,即其电池电量、数据队列长度和信道状况,可被放入传输至无人机的数据包的控制段中。
动机与贡献
本文的动机是解决无人机在线速度控制和物联网传输调度的研究挑战与机遇。具体而言,我们构建了一个离散时间马尔可夫决策过程(MDP),以最小化由物联网节点缓冲区溢出和传输失败导致的网络成本。采用深度强化学习来确定无人机在每个MDP状态下的最优速度控制和物联网节点选择策略。
如图1所示,具有有限数据缓冲区的物联网节点会经历随机数据到达。选择某个物联网节点进行数据采集可能导致其他位置发生缓冲区溢出,因为当节点的缓冲区已满时,新的数据到达可能被迫丢弃。特别是,选择信道条件较差的物联网节点会导致在其他节点上出现数据包传输错误和缓冲区溢出。此外,由于无线电覆盖范围有限,无人机可能无法完全实时掌握每个物联网节点的状态。节点仅在被轮询时才能报告其状态,并随各自的数据发送该信息。因此,设计(或更准确地说,在线学习)一种合适的无人机速度控制与通信调度方案以捕获底层节点的数据和能量信息结构,并调整速度设置和节点选择过程。
挑战与机遇
什么是VCDC?
考虑到无人机的移动,每个物联网节点与飞行器之间的时变无线信道可能会遭受独立的信号衰落。当信道质量较差时,物联网节点进行传输很可能导致无人机处出现分组接收错误。此外,节点将其待采集的信息缓存在数据队列中,而该队列容量有限。当队列溢出时,新的数据包将被丢弃。
节点的采集能量可能受到阴雨天气、缺乏风力以及现有无线网络干扰的影响。因此,节点的电池能量会随时间变化。部分节点可能在其队列中的数据包尚未导出之前就已耗尽能量。
在无人机使能的物联网网络中,联合确定无人机的巡逻速度并调度节点的数据传输至关重要,以最小化因缓冲区溢出和信道衰落导致的分组丢失。若无人机采用不恰当的VCDC策略,可能会调度部分数据队列长度较短且链路质量较差的物联网节点进行传输,导致这些节点因分组(重)传输而消耗电池能量,同时一些链路质量较好的节点未能被及时调度,可能造成其缓冲区溢出。此外,在实际中,由于不可忽略的信令延迟和开销,无人机无法获得所有物联网节点电池电量和数据队列长度的完整且最新的信息,这使得在线无人机速度控制和物联网传输调度变得复杂。
研究现状
无人机的运动设计旨在通过考虑飞行器的推进能量消耗,协助飞行器与地面设备之间的点对点通信[10]。提出了一种算法以提高能量效率,该算法受限于无人机的轨迹约束,包括无人机的初始/最终位置和速度及其最大速度。在[11]中,利用带速度控制的无人机轨迹规划为地面传感器充电。问题的建模与求解表明,可通过设计悬停位置和持续时间来提升无线能量传输效率。在[12]中,使用无人机为偏远地区提供应急数据通信。研究了一种无人机部署算法,通过控制飞行速度和高度来减少无人机的部署时间,同时保证网络覆盖。
现有文献中的轨迹规划和通信调度方法采用离线确定性优化理论来提高网络覆盖并降低无人机的能耗。基于特定的统计分布,网络状态的转换被建模为概率随机过程。相比之下,本文关注在线VCDC问题,在无人机对状态动态没有先验知识的情况下,最小化由物联网节点缓冲区溢出和信道质量差引起的数据丢失。
在我们最近的研究[9]和[13]中,我们开始探索无人机速度与物联网传输的基于学习的联合优化。在[9]中,我们研究了一种节能数据中继方案,以平衡无人机的电池寿命,其中无人机以预设速度移动。在[13]中,提出了一种基于双Q学习的调度算法,用于在无人机飞行轨迹上选择物联网节点进行数据采集和无线能量传输。本文将[9]和[13]的思想推广,旨在在缺乏物联网节点瞬时完整信息的情况下,联合优化无人机速度和通信调度。采用机载深度强化学习方法,以确定物联网节点上数据和能量到达的潜在特征,并实时实现最优速度控制和通信调度。
VCDC的马尔可夫决策过程
无人机的轨迹和高度(即航路点)是预先设计的,以使无人机能够在物联网节点分布的区域进行巡逻。在整个VCDC过程中,需要实时优化无人机速度控制和物联网传输调度。必须捕捉不同时隙调度决策之间的相关性,并验证VCDC策略的长期最优性。为此,通常采用离散时间马尔可夫决策过程对VCDC问题进行模型化,其中网络状态包括物联网节点的电池能量和数据队列长度、无人机与物联网节点之间的信道条件以及无人机的航路点。无人机可以执行动作来控制瞬时巡逻速度并选择物联网节点。无人机的VCDC决策会影响每个物联网节点未来的电池能量和数据队列长度,从而对无人机的后续动作产生不可忽视的影响。由于每个节点的数据到达和排队过程是随机且独立的,VCDC动作可以被建模为一个离散时间随机过程。特别是,无人机上的VCDC动作也是部分可控的。
请注意,VCDC问题与旅行商问题不同,因为所有可能的航路点都是以环形串联的,而VCDC策略决定无人机的下一个航路点和实时动态调整时隙。换句话说,VCDC策略实时确定无人机的巡逻速度。这是通过无人机沿环路反复飞行,并在线学习所有物联网节点上数据和能量到达的潜在模式来实现的。
无人机的VCDC动作可以在一个长期的随机控制过程中进行优化,其中最优性是针对特定指标实现的,例如由缓冲区溢出和数据传输失败引起的丢包。MDP的最优策略可以通过经典方法获得,例如值迭代和策略迭代[3]。具体而言,值迭代通过迭代优化对动作-价值函数的估计,而策略迭代则在每一步更新策略以获得动作-价值函数。假设无人机预先已知网络状态的转移以及各状态下的丢包情况。值/策略迭代方法根据贝尔曼最优方程反复更新对最优动作-价值函数的估计。当该方程收敛时,成本函数被最小化,MDP模型趋于稳定。然而,由于需要预先掌握所有网络状态的转移信息及各状态下的丢包情况,MDP的动作-价值函数只能离线评估,而这些知识并不适用于在线VCDC问题。
Q学习是最流行的强化学习技术之一,可在小规模静态物联网网络中最小化预期的长期累积折扣成本(即物联网节点的预期丢包率)[14]。动作-价值函数的Q-值可被学习为无人机在采用某种VCDC策略执行动作时的预期累积折扣成本。通过所获得的经验和当前的动作-价值函数,可以确定无人机未来的动作。通过学习动作-价值函数,可以在无需转移和成本函数的情况下获得最优调度策略。然而,Q学习存在著名的维度灾难问题,在无人机使能的物联网网络中由于网络状态和动作数量庞大,使其难以适用于在线速度与数据收集控制问题。
相比之下,本文旨在使无人机能够自主在线控制其自身速度和物联网节点选择,以最小化宝贵数据的丢失。马尔可夫决策过程(MDP)中的每个网络状态由轨迹上的无人机航路点以及各节点的电池电量和数据队列长度组成。无人机的瞬时巡逻速度及用于数据传输的物联网节点选择构成了VCDC的MDP动作。VCDC的状态空间和动作空间可能极为庞大,并随着MDP状态和动作数量的增加而迅速增长;因此,基于动态规划的方法[3]和强化学习算法[14]在无人机使能的物联网网络中并不适用。
机载深度强化学习用于在线VCDC
Architecture of Onboard Deep Reinforcement Learning
为了克服强化学习中的维度灾难问题,可以根据两种典型的神经网络模型来开发深度强化学习,即卷积神经网络(CNN)和深度Q网络。CNN架构可以包含大量卷积、池化和全连接层。在构建CNN时,必须预先确定许多参数,例如层数、层的顺序以及每层的类型。参数设置可能导致CNN架构庞大,从而导致较高的设计与实现复杂度。
深度强化学习可用于为VCDC的在线控制与规划开发一种新的ObDRL。该方案可通过在无人机上训练ObDRL来最小化整个系统的数据包丢失。ObDRL可以联合优化瞬时巡逻速度、无人机和物联网节点的选择,以及前述马尔可夫决策过程的扩展状态与动作空间。
图2展示了ObDRL的架构。来自物联网节点的缓冲区溢出和传输失败所导致的丢包构成了网络成本。无人机从真实环境中观测当前网络状态(即无人机航路点、所选物联网节点的电池能量和数据队列长度,以及信道质量)。深度强化学习可以通过将当前系统状态和即时系统成本作为输入,训练深度Q网络,并评估相应的Q值。ObDRL能够通过学习无人机在每个网络状态下的最优VCDC策略,逼近Q值以最小化网络成本。此外,ObDRL可以衡量在给定MDP模型的网络状态下VCDC策略的质量。当为无人机分配最优速度并调度理想物联网节点在环境中传输数据时,可以获得新的网络状态和成本,并将其作为下一输入以进一步训练ObDRL。
基于观测的深度强化学习(ObDRLs)用于在线VCDC
深度强化学习可以在多个回合中进行,通过调整一组学习权重来逼近深度Q网络中Q值的最小值。每个回合包含若干连续的时间周期,在此期间,深度Q网络被训练以寻找VCDC的最优动作(即无人机的速度和物联网节点的传输调度)。如图2所示,在每个回合中,深度Q网络在当前网络状态下更新学习权重,通过优化即时网络成本来最小化均方贝尔曼误差。通过迭代学习并不断减小网络成本,ObDRL能够随着状态和动作规模/空间的增长,渐近地实现最佳的速度控制和传输调度。
通过深度强化学习,可以在深度Q网络[15]中对网络状态进行随机化,并在每个回合中对无人机的动作进行随机化,从而实现经验回放。在线VCDC在每个回合中的网络状态和动作被存储在无人机的数据集中,并通过多个回合汇集到为经验回放分配的内存中。深度Q网络中的经验包含多个样本(或小批量),并可在学习过程中相应地更新。经验回放能够消除从环境中观测网络状态时产生的振荡和发散,平滑数据分布的变化,从而降低深度强化学习中学习更新的方差。
一种e-贪婪策略可用于在已知的无人机速度控制和物联网传输调度决策基础上,通过尝试新的无人机动作以获取未知知识,从而平衡网络成本最小化。具体而言,无人机可根据概率.e随机确定其瞬时速度和用于数据传输的物联网节点。这有助于探索未知的VCDC知识。同时,基于已学习到的VCDC知识,仍可实现网络成本最小化,其概率为.1-e。
性能提升
ObDRL实现
物联网节点的数据包生成速率为100个数据包,每个数据包为128字节。信道所需的误码率(BER)可为0.05%;然而,BER可根据业务类型、应用的服务质量要求以及无人机的传输能力进行配置。电池读数是连续变量,其实时方差难以追踪。因此,为了提高性能的可处理性并便于说明,物联网节点的电池容量被离散化为50个等级,读数可向下取整至最接近的离散等级。回放内存可存储5000个数据单元。无人机的发射功率可设置为100毫瓦。仿真参数也在表1中列出。
ObDRL使用Python 3.5实现,基于Keras深度学习库,并以Google TensorFlow作为后端引擎。使用tensorflow.layers.dense(inputs, 输出空间维度, 激活函数)创建了三个全连接隐藏层。然后调用优化器函数tensorflow.train.AdamOptimizer().minimize(损失函数)来最小化损失函数。该优化器从Keras库中导入。为了在线训练ObDRL,内存会在每一步存储学习结果以及经验,采用四元组 。通过调用函数memory.add_sample(state, action, cost, next_state)更新内存,并通过调用函数memory.sample(批量大小)检索经验。
数值分析
为了进行性能比较,我们还模拟了三种现有技术作为基准,分别是恒定速度数据队列(CVDQ)、恒定速度最高信道质量(CVHC)和恒定速度随机调度(CVRS)。CVDQ是一种基于物联网节点数据队列长度的贪婪策略,其中无人机保持恒定速度。假设无人机可以获知其无线电范围内的物联网节点的数据队列长度(而在所提出的ObDRL方法中并非如此),则选择队列最长的节点传输数据。CVHC是一种基于物联网节点信道质量的贪婪策略,选择信噪比最高的节点传输数据。CVRS每次随机调度一个物联网节点传输数据,且VCDC决策与节点的电池电量、节点的队列长度和信道条件以及无人机的速度无关。
图3展示了在折现因子为0.99的情况下,ObDRL的网络成本随回合(即学习时间)的变化情况。物联网节点数量及其数据队列的最大长度分别设置为300和20个数据包。从图中可以看出,ObDRL的网络成本从第1回合到第350回合显著下降。特别是,在初始的70个回合内,ObDRL的网络成本迅速降低。ObDRL的性能在大约360个回合内收敛并保持稳定。这是因为深度Q网络在学习过程的初期得到了训练。经过若干回合后,ObDRL可以将一组MDP状态及其对应的动作作为学习经验存储在回放内存中。基于这些经验,ObDRL中的学习权重可以被最优地更新,以逼近无人机在VCDC中的动作输出。从图3中我们还可以观察到,ObDRL分别比CVDQ、CVHC和CVRS提高了75.5%、77.3%和84.9%的性能。这是因为ObDRL能够通过不断增加的回合数进行充分训练,从而优化无人机的VCDC决策。在每次学习迭代中,深度Q网络通过最小化损失函数来降低均方贝尔曼误差。
图4展示了当物联网节点数量增加时ObDRL的网络成本。如图所示,当物联网节点的最大队列长度从10增加到50时,ObDRL能够在很大程度上降低网络成本。此外,ObDRL实现的丢包率低于CVDQ、CVHC和CVRS,且性能优势随着网络规模的增大而持续提升。其原因是ObDRL通过学习物联网节点的能耗模式和数据队列状态,做出最优的VCDC决策,从而最小化整个网络的数据包丢失。
图5展示了通过应用ObDRL并在学习回合数逐渐增加的情况下对无人机巡逻速度的控制。可以看出,在训练过程初期,无人机的速度变化剧烈。随着回合数的增加,ObDRL逐渐学习到网络动态,速度的变化显著减少。图5的结果还揭示了一个重要现象:在节点数据队列长度相同的情况下,当物联网节点数量较多时,无人机的速度会被更频繁地调整。这是因为在大规模地面网络中,节点的状态变化比小规模网络更加频繁和复杂。为了最小化网络中节点的整体丢包,无人机必须更频繁地加速和减速。
图6显示了无人机的巡逻速度与物联网节点数量的关系。如图所示,随着网络规模的增加,巡逻速度上升。这是因为无人机必须加速以从更多的物联网节点收集数据,从而减少缓冲区溢出。此外,增加节点的最大数据队列长度可以降低无人机的瞬时速度。较大的数据队列能够容纳更多的数据包。这会导致数据传输时间延长,从而减缓无人机的飞行速度。
结论
本文介绍了无人机使能的物联网网络中在线VCDC决策的设计。构建了一种ObDRL架构,能够最小化由于缓冲区溢出和传输故障导致的物联网节点数据包丢失。在无需实时掌握网络状态的情况下,还对无人机的瞬时巡逻速度和物联网节点的数据传输调度进行了最优确定。研究发现,在训练ObDRL时,可在每个学习回合中利用深度强化学习进行经验回放,以存储网络状态和动作。ObDRL通常可使用Keras深度学习库与Google TensorFlow实现。最后,物联网网络的可扩展性以及节点的数据队列长度会对无人机的VCDC产生显著影响。

1147

被折叠的 条评论
为什么被折叠?



