以悬崖困境为基础,构建三维网格地图环境,以agent(自主式水下潜器Autonomous Underwater Vehicle,简称AUV)为运动物。AUV的动作空间自行设置(离散运动空间、连续运动空间均可),动作空间维度自行设定,但不得小于4维(上下前后左右)。请结合运动时间、运动成本、安全风险等实际因素进行考量,设计合理的奖励函数。
完成下面问题:障碍物固定,出发、目的地固定,使用DRL方法训练agent到达目的地
目录
1、准备工作——环境设计
3.1运动环境的设计
3.1.1主要组件
(1)网格地图:三维网格地图,大小为10x10x10。每个单元格表示一个可供AUV运动的位置
(2)AUV(自主水下航行器):在网格地图中运动的代理,负责执行一系列动作以到达目标位置
(3)障碍物:固定设置在地图中的若干障碍物点,AUV不能穿越这些点
(4)起点和终点:从预定义的四个点集中随机选择的起点和终点,确保每次训练的起点和终点有所不同
(5)奖励机制:定义每个状态转移所获得的奖励,用于指导AUV的学习和决策
3.1.2环境操作
(1)初始化:在每个训练回合开始时,环境会随机选择起点和终点,并重置AUV到起点位置
(2)状态转移:根据AUV选择的动作更新其位置,如果AUV选择的动作会导致其进入障碍物或越界,则该动作无效,AUV保持原地不动
(3)动作执行:AUV可以选择六个离散动作中的一个(向上、向下、向前、向后、向左、向右),每个动作会尝试改变其在网格中的位置
(4)检测终止条件:每一步执行后,检查AUV是否到达终点,如果到达终点,则本回合结束
3.1.3奖励机制
(1)到达终点奖励:如果AUV到达终点,给予高额奖励(500分),鼓励AUV尽快到达目标
(2)碰撞惩罚:如果AUV碰到障碍物,给予一定的惩罚(-10分),使AUV学会避开障碍物
(3)移动惩罚:每次移动都给予微小惩罚(-1分),以促使AUV尽快到达终点,避免无效移动
3.2运动空间的设计
3.2.1动作空间设计——离散型:
(1)动作空间定义:动作空间由六个离散动作组成,分别为向上、向下、向前、向后、向左、向右
(2)动作表示:每个动作用一个整数表示,例如:0表示向上,1表示向下,2表示向前,3表示向后,4表示向左,5表示向右
(3)动作约束:每个动作都有边界条件和障碍物检查,确保AUV在执行动作后不会越界或穿越障碍物
3.2.2状态空间设计——连续型:
(1)状态空间定义:状态空间由AUV在网格中的位置组成,每个位置用三维坐标表示(x, y, z)
(2)状态表示:当前状态用AUV的当前位置坐标表示,例如:(x, y, z)
(3)状态转换:根据AUV执行的动作,状态会发生相应的变化,新的状态由新的坐标表示