DuelingDQN实现三维路径规划

以悬崖困境为基础,构建三维网格地图环境,agent自主式水下潜器Autonomous Underwater Vehicle,简称AUV运动物AUV的动作空间自行设置(离散运动空间、连续运动空间均可),动作空间维度自行设定,但不得小于4维(上下前后左右)。请结合运动时间、运动成本、安全风险等实际因素进行考量,设计合理的奖励函数。

完成下面问题:障碍物固定,出发、目的地固定,使用DRL方法训练agent到达目的地

目录

1、准备工作——环境设计

3.1运动环境的设计

3.1.1主要组件

3.1.2环境操作

3.1.3奖励机制

3.2运动空间的设计

3.2.1动作空间设计——离散型:

3.2.2状态空间设计——连续型:

2、算法设计

2.1网络架构

2.2算法流程

 2.3算法伪代码

2.3Dueling DQN类的定义

3、结果展示

完整代码


1、准备工作——环境设计

3.1运动环境的设计

3.1.1主要组件

(1)网格地图:三维网格地图,大小为10x10x10。每个单元格表示一个可供AUV运动的位置

(2)AUV(自主水下航行器):在网格地图中运动的代理,负责执行一系列动作以到达目标位置

(3)障碍物:固定设置在地图中的若干障碍物点,AUV不能穿越这些点

(4)起点和终点:从预定义的四个点集中随机选择的起点和终点,确保每次训练的起点和终点有所不同

(5)奖励机制:定义每个状态转移所获得的奖励,用于指导AUV的学习和决策

3.1.2环境操作

(1)初始化:在每个训练回合开始时,环境会随机选择起点和终点,并重置AUV到起点位置

(2)状态转移:根据AUV选择的动作更新其位置,如果AUV选择的动作会导致其进入障碍物或越界,则该动作无效,AUV保持原地不动

(3)动作执行:AUV可以选择六个离散动作中的一个(向上、向下、向前、向后、向左、向右),每个动作会尝试改变其在网格中的位置

(4)检测终止条件:每一步执行后,检查AUV是否到达终点,如果到达终点,则本回合结束

3.1.3奖励机制

(1)到达终点奖励:如果AUV到达终点,给予高额奖励(500分),鼓励AUV尽快到达目标

(2)碰撞惩罚:如果AUV碰到障碍物,给予一定的惩罚(-10分),使AUV学会避开障碍物

(3)移动惩罚:每次移动都给予微小惩罚(-1分),以促使AUV尽快到达终点,避免无效移动

3.2运动空间的设计

3.2.1动作空间设计——离散型:

(1)动作空间定义:动作空间由六个离散动作组成,分别为向上、向下、向前、向后、向左、向右

(2)动作表示:每个动作用一个整数表示,例如:0表示向上,1表示向下,2表示向前,3表示向后,4表示向左,5表示向右

(3)动作约束:每个动作都有边界条件和障碍物检查,确保AUV在执行动作后不会越界或穿越障碍物

3.2.2状态空间设计——连续型:

(1)状态空间定义:状态空间由AUV在网格中的位置组成,每个位置用三维坐标表示(x, y, z)

(2)状态表示:当前状态用AUV的当前位置坐标表示,例如:(x, y, z)

(3)状态转换:根据AUV执行的动作,状态会发生相应的变化,新的状态由新的坐标表示

2、算法设计

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值