未知环境路径规划与肝癌CT图像分割技术解析
未知环境路径规划
在未知环境中进行路径规划时,当朝着目标移动的过程中遇到需要避障的情况,就会添加虚拟子目标。然而,在朝着最终目标点移动时,可能会添加不必要的虚拟子目标。
为了解决这个问题,提出了基于线性拓扑结构的虚拟子目标优化算法。该算法的具体流程如下:
1. 初始化地图环境和参数。
2. 从遍历拓扑结构中,对每个节点进行操作。
3. 将智能体位置初始化为该节点,并将下一个节点初始化为目标状态。
4. 机器人状态 s 根据动作选择策略,获得动作 a。
5. 执行动作 a 到达下一个状态,并获得回报 r。
6. 根据子目标添加算法,判断是否需要添加该节点。
7. 如果到达下一个节点,判断拓扑结构中两点间的累积距离是否大于两点间的移动距离。若是,则用移动过程中的节点替换拓扑结构中的节点;否则,拓扑结构不变,以连接节点为目标点再次移动。
8. 如果到达拓扑结构中的最后一个节点,则退出循环。
为了验证该算法的性能,进行了实验。实验设置了一个 40 * 40 的静态地图网格环境,左上角为智能体初始位置,右下角为目标位置。动作选择策略采用 epsilon - 贪心策略,epsilon 设置为 0.1,奖励函数设置为稀疏奖励。最大训练轮数设置为 1000,每轮最大训练次数为 200。同时,将传统强化学习作为对照组,最大训练轮数设置为 10000 轮,每轮最大训练次数为 1000。
实验结果表明,传统强化学习算法在 10000 次迭代后仍有振荡,而所提出的算法在 100 次迭代后就能得到更稳定、平滑的路径。从每轮的移动步数来看,传统强化学习算法的路径在约
超级会员免费看
订阅专栏 解锁全文
3644

被折叠的 条评论
为什么被折叠?



