作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。
🍎 往期回顾关注个人主页:Matlab科研工作室
🍊个人信条:格物致知,完整Matlab代码及仿真咨询内容私信。
🔥 内容介绍
随着 5G 通信、物联网等技术的迅猛发展,边缘计算作为一种能够将计算和存储资源下沉到网络边缘的技术,有效解决了传统云计算中存在的延迟高、带宽占用大等问题,在智能交通、工业物联网、智慧城市等领域展现出巨大的应用潜力。
多无人机辅助边缘计算网络结合了无人机的灵活性和边缘计算的高效性,通过无人机搭载边缘计算设备,能够为覆盖区域内的用户提供近距离的计算服务。然而,在该网络中,多无人机的路径规划面临着诸多挑战。一方面,需要考虑用户的计算任务需求,确保无人机能够为用户提供及时的计算服务支持;另一方面,要兼顾无人机的能源限制、通信链路质量、任务卸载效率等因素。
深度强化学习作为一种能够让智能体在与环境的交互中自主学习最优策略的方法,在处理复杂动态环境下的决策问题时具有独特优势。将深度强化学习应用于多无人机辅助边缘计算网络的路径规划,能够使无人机在动态变化的环境中,自主规划出最优路径,提高边缘计算网络的服务质量和效率,具有重要的理论研究价值和实际应用前景。
二、深度强化学习原理
深度强化学习是深度学习与强化学习相结合的产物。强化学习主要研究智能体在与环境的交互过程中,通过试错来学习如何最大化累积奖励的策略。其核心要素包括智能体、环境、状态、动作和奖励。
智能体在环境中处于某个状态,它会选择一个动作作用于环境,环境会随之转换到一个新的状态,并给智能体一个奖励。智能体的目标是学习一个从状态到动作的映射策略,以获得最大的累积奖励。
深度学习则通过多层神经网络能够自动提取数据的特征,解决了强化学习中状态空间过大的问题。深度强化学习利用深度神经网络来近似价值函数或策略函数,其中深度 Q 网络(DQN)是一种经典的深度强化学习算法。DQN 通过经验回放和目标网络等技术,有效提高了算法的稳定性和收敛性,使智能体能够在复杂的环境中学习到有效的策略。
三、多无人机辅助边缘计算网络路径规划模型构建
(一)网络模型
多无人机辅助边缘计算网络由多个无人机、地面用户和边缘服务器组成。每个无人机搭载边缘计算节点,能够接收用户的计算任务,并进行任务处理或卸载到其他边缘节点。用户分布在一定的区域内,具有不同的计算任务需求,如任务数据量、计算复杂度、延迟要求等。
在该网络中,无人机的位置和移动路径直接影响着与用户的通信质量、计算任务的处理效率以及自身的能源消耗。因此,路径规划需要综合考虑这些因素,以实现网络性能的最优化。
(二)状态空间定义
状态空间用于描述多无人机辅助边缘计算网络的当前状况。在路径规划中,状态可以包括无人机的当前位置、剩余电量、与其他无人机的相对位置、用户的任务需求信息(如任务队列长度、剩余处理时间)、通信链路质量等。
将这些信息进行量化和整合,构成深度强化学习中的状态向量。状态空间的定义需要全面反映网络的关键特征,同时避免维度过高导致计算复杂度增加。
(三)动作空间定义
动作空间是指无人机在每个状态下可以采取的行动。对于路径规划而言,无人机的动作可以是向不同方向移动一定的距离,如上下左右、前后等,也可以是调整飞行速度。
动作的定义需要结合无人机的运动性能和网络的实际需求,确保动作的可行性和有效性。同时,动作空间的大小也会影响算法的学习效率和性能。
(四)奖励函数设计
奖励函数是深度强化学习中引导智能体学习的关键,它根据智能体的动作和环境的反馈给予相应的奖励或惩罚。在多无人机辅助边缘计算网络路径规划中,奖励函数需要综合考虑多个目标,如减少用户任务的处理延迟、降低无人机的能源消耗、提高通信链路质量、平衡各无人机的任务负载等。
例如,当无人机移动到能够为更多用户提供高效服务的位置时,给予正奖励;当无人机因移动导致能源消耗过大或用户任务延迟增加时,给予负奖励。奖励函数的设计需要合理权衡各目标之间的关系,以实现网络整体性能的最优。
四、基于深度强化学习的路径规划算法实现
(一)算法框架
采用深度 Q 网络(DQN)作为基础框架,结合多智能体强化学习的思想,为每个无人机构建一个独立的 DQN 模型。每个无人机通过与环境的交互,学习自身的路径规划策略。
在学习过程中,多个无人机之间可以进行信息交互和协作,以实现全局最优。例如,无人机可以共享自身的位置信息、任务处理情况等,以便更好地协调各自的行动。
(二)经验回放与目标网络
为了提高算法的稳定性,采用经验回放机制。将无人机的每一步交互经验(状态、动作、奖励、下一状态)存储到经验池中,在训练时随机从经验池中抽取样本进行训练,避免样本之间的相关性对网络训练的影响。
同时,引入目标网络,目标网络用于计算目标 Q 值,与当前网络分开更新。通过定期将当前网络的参数复制到目标网络中,减少了 Q 值估计的偏差,提高了算法的收敛速度。
(三)训练过程
在训练初期,无人机通过随机探索环境来获取经验,并将经验存储到经验池中。随着训练的进行,无人机逐渐根据学习到的策略选择动作。
在每次训练迭代中,从经验池中随机抽取一批样本,利用当前网络计算 Q 值,利用目标网络计算目标 Q 值,通过损失函数计算两者之间的差异,并利用梯度下降算法更新当前网络的参数。
通过不断迭代训练,使无人机逐渐学习到最优的路径规划策略,能够根据环境的变化自主调整路径,以实现奖励函数的最大化。
五、路径规划执行与优化
(一)实时路径调整
在多无人机执行任务的过程中,网络环境会不断发生变化,如用户任务的动态到达、通信链路质量的波动、无人机剩余电量的变化等。基于深度强化学习的路径规划算法能够实时感知这些变化,并根据学习到的策略及时调整无人机的路径。
通过持续与环境进行交互,无人机能够快速适应新的环境状态,确保网络始终保持较高的服务质量。
(二)多目标优化平衡
在实际应用中,多无人机辅助边缘计算网络的路径规划往往需要同时优化多个目标,而这些目标之间可能存在冲突。例如,减少任务延迟可能需要无人机靠近用户,从而增加能源消耗;平衡任务负载可能需要无人机进行更多的移动,导致通信成本增加。
基于深度强化学习的算法能够通过奖励函数的设计,在训练过程中自动权衡各目标之间的关系,实现多目标的优化平衡。通过调整奖励函数中各因素的权重,可以根据不同的应用场景和需求,灵活调整路径规划的侧重点。
(三)性能评估
为了评估基于深度强化学习的多无人机辅助边缘计算网络路径规划算法的性能,需要建立相应的评估指标体系。主要评估指标包括用户任务的平均处理延迟、无人机的平均能源消耗、通信链路的平均吞吐量、任务卸载成功率、各无人机的任务负载均衡度等。
通过仿真实验,将该算法与其他传统的路径规划算法(如遗传算法、粒子群优化算法等)进行比较,分析其在不同网络场景和任务负载下的性能表现,验证该算法的优越性和有效性。
六、结论与展望
(一)研究结论
本文将深度强化学习应用于多无人机辅助边缘计算网络的路径规划中,构建了相应的网络模型、状态空间、动作空间和奖励函数,设计了基于 DQN 的路径规划算法。通过仿真实验验证,该算法能够使多无人机在动态变化的网络环境中,自主规划出最优路径,有效降低了用户任务的处理延迟,减少了无人机的能源消耗,提高了网络的整体性能。
(二)未来展望
尽管基于深度强化学习的多无人机辅助边缘计算网络路径规划取得了一定的研究成果,仍存在一些问题需要进一步研究和解决。
未来可以从以下几个方面进行深入探索:
- 考虑无人机的三维空间路径规划,以适应更复杂的地形环境和空域限制。
- 研究多智能体之间的协同策略,提高多无人机在路径规划中的协作效率,实现更优的全局性能。
- 结合迁移学习等技术,提高算法的泛化能力,使无人机能够快速适应新的网络环境和任务需求。
- 考虑网络中的不确定性因素,如用户任务的随机到达、通信链路的突发故障等,提高算法的鲁棒性。
- 进行实际场景的实验验证,进一步完善算法,推动其在实际应用中的落地。
⛳️ 运行结果
🔗 参考文献
[1] 徐少毅,杨磊.基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹设计[J].北京交通大学学报, 2024, 48(5):1-9.
[2] 刘鑫.基于深度强化学习的无人机辅助移动边缘计算研究[D].南京邮电大学,2023.
[3] 电子与通信工程.移动边缘计算系统中基于强化学习的无人机路径规划研究[D].[2025-07-11].
📣 部分代码
🎈 部分理论引用网络文献,若有侵权联系博主删除
👇 关注我领取海量matlab电子书和数学建模资料
🏆团队擅长辅导定制多种科研领域MATLAB仿真,助力科研梦:
🌈 各类智能优化算法改进及应用
生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化、背包问题、 风电场布局、时隙分配优化、 最佳分布式发电单元分配、多阶段管道维修、 工厂-中心-需求点三级选址问题、 应急生活物质配送中心选址、 基站选址、 道路灯柱布置、 枢纽节点部署、 输电线路台风监测装置、 集装箱调度、 机组优化、 投资优化组合、云服务器组合优化、 天线线性阵列分布优化、CVRP问题、VRPPD问题、多中心VRP问题、多层网络的VRP问题、多中心多车型的VRP问题、 动态VRP问题、双层车辆路径规划(2E-VRP)、充电车辆路径规划(EVRP)、油电混合车辆路径规划、混合流水车间问题、 订单拆分调度问题、 公交车的调度排班优化问题、航班摆渡车辆调度问题、选址路径规划问题、港口调度、港口岸桥调度、停机位分配、机场航班调度、泄漏源定位
🌈 机器学习和深度学习时序、回归、分类、聚类和降维
2.1 bp时序、回归预测和分类
2.2 ENS声神经网络时序、回归预测和分类
2.3 SVM/CNN-SVM/LSSVM/RVM支持向量机系列时序、回归预测和分类
2.4 CNN|TCN|GCN卷积神经网络系列时序、回归预测和分类
2.5 ELM/KELM/RELM/DELM极限学习机系列时序、回归预测和分类
2.6 GRU/Bi-GRU/CNN-GRU/CNN-BiGRU门控神经网络时序、回归预测和分类
2.7 ELMAN递归神经网络时序、回归\预测和分类
2.8 LSTM/BiLSTM/CNN-LSTM/CNN-BiLSTM/长短记忆神经网络系列时序、回归预测和分类
2.9 RBF径向基神经网络时序、回归预测和分类
2.10 DBN深度置信网络时序、回归预测和分类
2.11 FNN模糊神经网络时序、回归预测
2.12 RF随机森林时序、回归预测和分类
2.13 BLS宽度学习时序、回归预测和分类
2.14 PNN脉冲神经网络分类
2.15 模糊小波神经网络预测和分类
2.16 时序、回归预测和分类
2.17 时序、回归预测预测和分类
2.18 XGBOOST集成学习时序、回归预测预测和分类
2.19 Transform各类组合时序、回归预测预测和分类
方向涵盖风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、用电量预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断
🌈图像处理方面
图像识别、图像分割、图像检测、图像隐藏、图像配准、图像拼接、图像融合、图像增强、图像压缩感知
🌈 路径规划方面
旅行商问题(TSP)、车辆路径问题(VRP、MVRP、CVRP、VRPTW等)、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、 充电车辆路径规划(EVRP)、 双层车辆路径规划(2E-VRP)、 油电混合车辆路径规划、 船舶航迹规划、 全路径规划规划、 仓储巡逻
🌈 无人机应用方面
无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配、无人机安全通信轨迹在线优化、车辆协同无人机路径规划
🌈 通信方面
传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化、水声通信、通信上传下载分配
🌈 信号处理方面
信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化、心电信号、DOA估计、编码译码、变分模态分解、管道泄漏、滤波器、数字信号处理+传输+分析+去噪、数字信号调制、误码率、信号估计、DTMF、信号检测
🌈电力系统方面
微电网优化、无功优化、配电网重构、储能配置、有序充电、MPPT优化、家庭用电
🌈 元胞自动机方面
交通流 人群疏散 病毒扩散 晶体生长 金属腐蚀
🌈 雷达方面
卡尔曼滤波跟踪、航迹关联、航迹融合、SOC估计、阵列优化、NLOS识别
🌈 车间调度
零等待流水车间调度问题NWFSP 、 置换流水车间调度问题PFSP、 混合流水车间调度问题HFSP 、零空闲流水车间调度问题NIFSP、分布式置换流水车间调度问题 DPFSP、阻塞流水车间调度问题BFSP
👇