基于改进Q学习的多机器人编队路径规划方法
1. 引言
随着人工智能的发展,移动机器人在工业等领域得到广泛应用。路径规划是移动机器人导航的基础部分,主要有明确起点和目标点、避开障碍物以及优化路径这三个任务。由于移动机器人的应用环境日益复杂,多机器人协作的场景越来越多,因此需要研究更高效的多机器人路径规划方法。
路径规划根据环境的已知条件可分为全局路径规划和局部路径规划。当前的路径规划方法主要有人工势场法、模板匹配、地图构建和人工智能等,每种方法都有其适用环境和规划条件。在未知环境的路径规划中,强化学习得到了有效应用。强化学习算法主要分为基于价值函数和基于直接策略搜索两大类,其中基于价值函数的强化学习方法中最常用的是Q学习算法,但传统Q学习算法存在收敛时间长、收敛速度慢的问题。
虽然已有一些关于移动机器人路径规划的研究,如通过添加初始引力势场和陷阱搜索使学习过程收敛更快,引入人工势场初始化Q值实现快速路径规划等,但现有方法仍存在诸多问题。因此,提出了一种基于改进Q学习的多机器人编队路径规划方法。该方法的创新点在于:通过环境先验信息初始化Q表,并填充凹形障碍物;利用模拟退火算法改进动作选择策略;跟随机器人采用改进的引力势场方法跟随领队机器人。
2. 领队机器人的改进Q学习
2.1 Q值初始化
Q学习是一种常用的强化学习算法。当智能体需要完成某项任务时,它通过动作与环境交互并进入新状态,同时环境会给予即时回报,即执行动作的奖励反馈。智能体根据奖励反馈了解动作的优劣,更倾向于选择正反馈的动作,减少选择负反馈动作的概率。通过反复迭代数据,智能体可以改进自身的动作策略,最终学习到完成相应任务的最优策略。Q值函数的更新方程为:
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



