DuelingDQN实现三维路径规划

九月巽风

已于 2024-07-01 21:55:12 修改

阅读量2.2k

点赞数 22

分类专栏：深度学习文章标签：人工智能深度学习

于 2024-06-30 22:56:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_62258950/article/details/140067457

版权

以悬崖困境为基础，构建三维网格地图环境，以agent（自主式水下潜器Autonomous Underwater Vehicle，简称AUV）为运动物。AUV的动作空间自行设置（离散运动空间、连续运动空间均可），动作空间维度自行设定，但不得小于4维（上下前后左右）。请结合运动时间、运动成本、安全风险等实际因素进行考量，设计合理的奖励函数。

完成下面问题：障碍物固定，出发、目的地固定，使用DRL方法训练agent到达目的地

目录

1、准备工作——环境设计

3.1运动环境的设计

3.1.1主要组件

3.1.2环境操作

3.1.3奖励机制

3.2运动空间的设计

3.2.1动作空间设计——离散型：

3.2.2状态空间设计——连续型：

2、算法设计

2.1网络架构

2.2算法流程

2.3算法伪代码

2.3Dueling DQN类的定义

3、结果展示

1、准备工作——环境设计

3.1运动环境的设计

3.1.1主要组件

（1）网格地图：三维网格地图，大小为10x10x10。每个单元格表示一个可供AUV运动的位置

（2）AUV（自主水下航行器）：在网格地图中运动的代理，负责执行一系列动作以到达目标位置

（3）障碍物：固定设置在地图中的若干障碍物点，AUV不能穿越这些点

（4）起点和终点：从预定义的四个点集中随机选择的起点和终点，确保每次训练的起点和终点有所不同

（5）奖励机制：定义每个状态转移所获得的奖励，用于指导AUV的学习和决策

3.1.2环境操作

（1）初始化：在每个训练回合开始时，环境会随机选择起点和终点，并重置AUV到起点位置

（2）状态转移：根据AUV选择的动作更新其位置，如果AUV选择的动作会导致其进入障碍物或越界，则该动作无效，AUV保持原地不动

（3）动作执行：AUV可以选择六个离散动作中的一个（向上、向下、向前、向后、向左、向右），每个动作会尝试改变其在网格中的位置

（4）检测终止条件：每一步执行后，检查AUV是否到达终点，如果到达终点，则本回合结束

3.1.3奖励机制

（1）到达终点奖励：如果AUV到达终点，给予高额奖励（500分），鼓励AUV尽快到达目标

（2）碰撞惩罚：如果AUV碰到障碍物，给予一定的惩罚（-10分），使AUV学会避开障碍物

（3）移动惩罚：每次移动都给予微小惩罚（-1分），以促使AUV尽快到达终点，避免无效移动

3.2运动空间的设计

3.2.1动作空间设计——离散型：

（1）动作空间定义：动作空间由六个离散动作组成，分别为向上、向下、向前、向后、向左、向右

（2）动作表示：每个动作用一个整数表示，例如：0表示向上，1表示向下，2表示向前，3表示向后，4表示向左，5表示向右

（3）动作约束：每个动作都有边界条件和障碍物检查，确保AUV在执行动作后不会越界或穿越障碍物

3.2.2状态空间设计——连续型：

（1）状态空间定义：状态空间由AUV在网格中的位置组成，每个位置用三维坐标表示（x, y, z）

（2）状态表示：当前状态用AUV的当前位置坐标表示，例如：(x, y, z)

（3）状态转换：根据AUV执行的动作，状态会发生相应的变化，新的状态由新的坐标表示

2、算法设计

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。