摘要:
为了解决用于路径规划的传统快速搜索随机树算法的高随机性问题,提出一个基于Q学习的分割启发式RRT规划算法。分割启发式的规则是通过设计目标偏差和引导避障的抽样策略。对基于Q学习的分割启发式RRT算法进行马尔可夫建模,动作的构造是基于分割启发式的规则。通过Q学习的方法设计全局最优路径奖励函数对每一个节点进行评估,基于贪心策略保持路径节点并删除冗余节点。仿真结果表明,Q-PRRT算法保证了路径的全局最优性,包含更平滑的规划路径,也提升了路径搜索的效率和避开障碍物的特点。对于不同障碍物的环境具有比较好的适应性。
索引词:
路径规划、RRT、分割启发式、Q学习、马尔可夫模型
Ⅰ INTRODUCTION(引言)
基于经典机器人技术的机器人可以在有限的领域内完成困难的任务。它们只能完成它们被编程的任务,因为它们没有广义的分析能力。今天真正的挑战是向机器人传授自然智能或广义分析能力。换句话说,人们正在努力确定赋予类人与物理环境相互作用的能力。强化学习在机器人技术中的应用有助于使机器人实现是否通过一系列特定的动作实现了预期的结果。它存储这些信息,当它遇到类似的情况时,它会试图做出正确的举动。其目的是通过与环境的交互来获得最优策略。这些方法[1]可以分为无模型的[2]方法和基于模型的[3]、[4]、[5]方法。无模型方法在不学习模型的情况下获得了最优策略。另一方面,基于模型的方法利用已知的模型信息来获得最优策略。复杂的机械系统或机器人的另一个方面是,它们不能被命令采取任意的行动,最简单的原因之一是,系统的自由度超过了系统中存在的执行器的数量。
为了解决这些问题,我们设计了一个自主机器人导航的任务。但是,在现实世界的环境中,使用传统的强化学习技术进行训练可能会相当繁琐和低效,原因是需要大量的训练数据。上述问题可以通过以网格世界类模拟器的形式构建现实世界场景的模型来解决。这个模型用于学习现实世界的基本动力学场景使用Q-learing强化学习和神经网络训练的权重过程中利用训练类似的结构化神经网络,函数逼近器用于强化学习在现实世界的场景。
过去,几种无模型和基于模型的方法被用于机器人的最优控制。Abbee等人[6]使用了微分动态规划(DDP),这是线性二次调节器(LQR)[7]的扩展,获得了一个控制器,并针对结果模型和奖励函数进行了优化。Masuta[8]等人[8]提出了一种结合视网膜模型和峰值神经网络的感知系统,以控制配备3d范围摄像机的机器人臂。Gu等人的[9],[12]提出了一种遗传算法(GA)方法来进化机器人的行为,并使用模糊逻辑控制器(FLCs)来设计机器人的行为。Hachour等[10]采用了基于模糊逻辑(FL)和专家系统(ES)的导航技术,为智能机器人在未知环境下导航。在[11]中,Sato等人构建了基于人际沟通的系统,使用指向手势作为信息。[13],[14]简要回顾了计算群智能的广泛领域及其在群机器人中的应用,这是经典机器人方法的一个有趣的替代方法。强化学习和策略搜索方法[17]、[19]、[20]可以应对高维状态和动作空间等机器人学习的挑战。在[15]中,Wang等人建立了一个汽车模拟系统,用各种RL算法在轨道上训练和测试汽车,包括演员-批评家方法、sarsa(0)和sarsa(λ)。[18]表明,与非层次技术相比,分层相对熵策略搜索可以学习通用的解决方案,并可以提高所发现策略的学习速度和质量。这些方法已经在机器人技术中实现,如乒乓球、猪乒乓[21]、[22]、物体操作。最近的论文[17],[1]提供了关于机器人技术政策搜索的调查。在实践中,对于感知、状态估计和低级控制,策略搜索应用程序通常需要手工设计完成。为了提高性能,Levine等人[16]使用部分观察引导策略搜索(GPS)方法对CNN(卷积神经网络)进行了训练,该方法将策略搜索转化为监督学习。
第二节总结了ε贪婪q学习,提供了本研究中使用的强化学习方法。第三节解释了本研究中使用的方法和实验设置。研究结果已在第四节中进行了讨论。该研究的结果已在第五节中得出结论。
Ⅱ PARTITION HEURISTIC RULES(分割启发式规则)
传统的RRT算法没有启发式机制,具有高随机性的特点;GoalBias-RRT算法采用目标偏置启发式机制,没有避免障碍物的引导,易于进入局部极值点。设计了基于目标偏差和避障引导采样策略的分割启发式规则,改进了传统的RRT算法,从而提高了路径规划算法的引导能力和避障能力。
A.Local Environment Modeling of Mobile Robot
在全局路径规划中,以从起点到目标点的直线为y轴建立坐标系,以移动机器人朝向目标点的方向为坐标的初始方向,表示为φ=0º。移动机器人局部环境分区建模如图1所示
摘要:
为了解决用于路径规划的传统快速搜索随机树算法的高随机性问题,提出一个基于Q学习的分割启发式RRT规划算法。分割启发式的规则是通过设计目标偏差和引导避障的抽样策略。对基于Q学习的分割启发式RRT算法进行马尔可夫建模,动作的构造是基于分割启发式的规则。通过Q学习的方法设计全局最优路径奖励函数对每一个节点进行评估,基于贪心策略保持路径节点并删除冗余节点。仿真结果表明,Q-PRRT算法保证了路径的全局最优性,包含更平滑的规划路径,也提升了路径搜索的效率和避开障碍物的特点。对于不同障碍物的环境具有比较好的适应性。
索引词:
路径规划、RRT、分割启发式、Q学习、马尔可夫模型
Ⅰ INTRODUCTION(引言)
基于经典机器人技术的机器人可以在有限的领域内完成困难的任务。它们只能完成它们被编程的任务,因为它们没有广义的分析能力。今天真正的挑战是向机器人传授自然智能或广义分析能力。换句话说,人们正在努力确定赋予类人与物理环境相互作用的能力。强化学习在机器人技术中的应用有助于使机器人实现是否通过一系列特定的动作实现了预期的结果。它存储这些信息,当它遇到类似的情况时,它会试图做出正确的举动。其目的是通过与环境的交互来获得最优策略。这些方法[1]可以分为无模型的[2]方法和基于模型的[3]、[4]、[5]方法。无模型方法在不学习模型的情况下获得了最优策略。另一方面,基于模型的方法利用已知的模型信息来获得最优策略。复杂的机械系统或机器人的另一个方面是,它们不能被命令采取任意的行动,最简单的原因之一是,系统的自由度超过了系统中存在的执行器的数量。
为了解决这些问题,我们设计了一个自主机器人导航的任务。但是,在现实世界的环境中,使用传统的强化学习技术进行训练可能会相当繁琐和低效,原因是需要大量的训练数据。上述问题可以通过以网格世界类模拟器的形式构建现实世界场景的模型来解决。这个模型用于学习现实世界的基本动力学场景使用Q-learing强化学习和神经网络训练的权重过程中利用训练类似的结构化神经网络,函数逼近器用于强化学习在现实世界的场景。
过去,几种无模型和基于模型的方法被用于机器人的最优控制。Abbee等人[6]使用了微分动态规划(DDP),这是线性二次调节器(LQR)[7]的扩展,获得了一个控制器,并针对结果模型和奖励函数进行了优化。Masuta[8]等人[8]提出了一种结合视网膜模型和峰值神经网络的感知系统,以控制配备3d范围摄像机的机器人臂。Gu等人的[9],[12]提出了一种遗传算法(GA)方法来进化机器人的行为,并使用模糊逻辑控制器(FLCs)来设计机器人的行为。Hachour等[10]采用了基于模糊逻辑(FL)和专家系统(ES)的导航技术,为智能机器人在未知环境下导航。在[11]中,Sato等人构建了基于人际沟通的系统,使用指向手势作为信息。[13],[14]简要回顾了计算群智能的广泛领域及其在群机器人中的应用,这是经典机器人方法的一个有趣的替代方法。强化学习和策略搜索方法[17]、[19]、[20]可以应对高维状态和动作空间等机器人学习的挑战。在[15]中,Wang等人建立了一个汽车模拟系统,用各种RL算法在轨道上训练和测试汽车,包括演员-批评家方法、sarsa(0)和sarsa(λ)。[18]表明,与非层次技术相比,分层相对熵策略搜索可以学习通用的解决方案,并可以提高所发现策略的学习速度和质量。这些方法已经在机器人技术中实现,如乒乓球、猪乒乓[21]、[22]、物体操作。最近的论文[17],[1]提供了关于机器人技术政策搜索的调查。在实践中,对于感知、状态估计和低级控制,策略搜索应用程序通常需要手工设计完成。为了提高性能,Levine等人[16]使用部分观察引导策略搜索(GPS)方法对CNN(卷积神经网络)进行了训练,该方法将策略搜索转化为监督学习。
第二节总结了ε贪婪q学习,提供了本研究中使用的强化学习方法。第三节解释了本研究中使用的方法和实验设置。研究结果已在第四节中进行了讨论。该研究的结果已在第五节中得出结论。
Ⅱ PARTITION HEURISTIC RULES(分割启发式规则)
传统的RRT算法没有启发式机制,具有高随机性的特点;GoalBias-RRT算法采用目标偏置启发式机制,没有避免障碍物的引导,易于进入局部极值点。设计了基于目标偏差和避障引导采样策略的分割启发式规则,改进了传统的RRT算法,从而提高了路径规划算法的引导能力和避障能力。
A.Local Environment Modeling of Mobile Robot
在全局路径规划中,以从起点到目标点的直线为y轴建立坐标系,以移动机器人朝向目标点的方向为坐标的初始方向,表示为φ=0º。移动机器人局部环境分区建模如图1所示
其中,角0º标记为y轴的正方向。顺时针方向-45º~45º为F(前向)区域,表示移动机器人的前向区域;45º~135º R(右)区域,表示移动机器人的右侧;135º~-135º为B(向后)区域,表示移动机器人的后向区域;-135º~-45º L(左)区域,表示移动机器人的左侧区域。
B. Target Bias and Obstacle-avoided Guidance Sampling Strategies
障碍物与移动机器人之间的距离可以通过它自己的传感器进行测量来获得。移动机器人相对于左侧障碍物的状态可以用等式1表示,dL是移动机器人到左侧障碍物的距离,N(近)表示障碍物与移动机器人的距离小于或等于安全避障阈值µ.F(Far)表示障碍物与移动机器人的距离大于安全避障阈值µ,移动机器人可以忽略障碍物对其的影响。
目标偏置采样策略是定向的,提高了算法的效率,但很容易陷入局部极值。根据不同障碍物和移动机器人的相对位置,可以引导移动机器人,平滑地避开障碍物,降低进入局部极值的概率。目标偏差和避障制导的采样策略划分如图2所示。
标记y轴是从起始角度0º开始的方向。顺时针方向的0º~45º是I区,45º~90º是areaⅡ,90º~135º是III区,135º~180º是II区,-180º~-135º是V区,-135º~-90º是VI区,-90º~-45º是VII区,-45º~0º是VIII区。
C. Establish Partition Heuristic Rules
根据移动机器人的局部环境模型、目标偏差和避障制导采样策略,具体的划分启发式规则如表1所示。
该规则对移动机器人检测到的环境障碍物信息进行了综合评价,并总结了障碍物相对于移动机器人在空间中的位置。根据障碍物和移动机器人的相对位置,提出了采样节点生成的划分启发式规则。不仅采用了目标偏差策略来加速算法的收敛速度;同时还添加了障碍物避免的制导策略,以避免随机树进入局部极值。
Ⅲ Q-PRRT ALGORITHM
分割启发式RRT算法的马尔可夫决策过程模型(MDP)的建立是通过结合Q学习算法和分割启发式RRT算法。设计了分割式RRT算法的动作集和奖励函数,通过Q值迭代求解最优采样节点的值,得到全局最优规划路径。
A. MDP Modeling of Partition Heuristic RRT Algorithm
MDP建模是建立环境状态到动作映射的学习方法模型,包括状态空间、动作集、状态转移矩阵和奖励函数。
(1)
状态:在MDP模型中,将随机树的每个展开节点视为一个状态。完全随机树是一个n维向量,表示为T(s),n是随机树中的节点数。
(2)
动作:根据分区启发式规则,决定从当前节点生成下一个节点。
(3)
奖励:评估由动作产生的扩展节点的优势和劣势位置,并评价结果作为奖励价值。
(4)
状态转移矩阵:根据奖励值不断更新转移概率,奖励值较大的状态具有较高的转移概率
对分割启发式RRT算法的MDP模型进行反复的探索和决策,根据反馈奖励值对环境信息进行更新,进而影响决策过程,最终得到最优解。
B. Design of Action Set
根据划分启发式规则,通过在指定的划分中进行探索,得到随机采样点,动作集如式2所示:
当a=0,srand为随机生成点;a=1、srand=s1,生成随机采样点产生在I区域,srand=sⅧ,随机采样点产生在Ⅷ区域;当a=10、Srand=Sgoal目标时,随机采样点为目标点的区域。
C. Design of Reward Function
奖励功能是决定q-学习表现的关键。高级奖励功能将尽快使问题的回报最大化。在全局路径规划中,移动机器人与目标点和障碍物之间的距离与规划效果密切相关。所设计的奖励功能为:
当移动机器人到障碍物之间的距离d大于一定的安全距离μ时,应忽略距离d3和d4的影响,从而加快了算法的收敛速度。
D. Q Value Iteration
q学习是一种值迭代算法。值迭代算法计算每个状态-动作对的值,并在执行相关的动作时最大化这个值。因此,对每个状态值的迭代细化是q-学习值迭代算法的核心。贪婪策略是使行动的长期奖励最大化,这不仅应该与当前的行动反馈奖励价值有关,还应该与行动的后续奖励有关。因此,采用值迭代法来逼近最优解。对于分区启发式RRT算法,在执行分区启发式规则的动作时,使用q学习值迭代来计算每个节点的q值。迭代方程如下:
Q-nearest是最近状态的Q值,Q-new是S-new状态的Q值。α为学习率,γ为折扣因子,r(S-nearest,a)为最接近终点节点执行动作a后获得的奖励值。
E. Q-PRRT Algorithm
在采用分区启发式RRT算法的基础上,采用q学习方法建立了各节点的学习评价机制,并提出了一种基于q学习的分区RRT路径规划算法。具体步骤见表2。
在Q-PRRT算法中,移动机器人的初始位置是S-init,目标位置是S-goal,η表示RRT算法步长,λ位置精度,Δ是Q值迭代精度,θ是最小常数,决定Q值迭代的精度,n表示迭代次数,N是最大迭代次数。
与传统的RRT算法相比,第8步根据分区启发式规则执行动作a,生成随机节点S-rand。步骤9在步长η中沿着离S-rand最近的直线方向探索新节点的s‘。步骤10检测s‘与S-nearest之间是否有障碍物,如果有障碍物,返回步骤8并重新选择动作,否则在步骤11中更新Q值.在步骤7-15中,通过Q-学习的方法进行循环迭代,直到Q-值接近最优解或迭代达到上限。步骤16-18,选择Q值最大的动作a,通过随机采样节点生成S-new的展开节点,并将其添加到随机树中。步骤19返回到步骤4,以执行下一个节点学习生成过程,直到找到目标点为止。步骤21输出完整的随机树,以得到最终规划的路径。
Ⅳ SIMULATION ANALYSIS
通过Matlab仿真验证了Q-PRRT算法,并对其性能进行了测试和分析。仿真在三种静态环境中进行:(1)均匀障碍物环境;(2)窄通道环境;(3)诱捕障碍物环境。RRT、GoalBias-RRT和Q-PRRT算法分别用于规划路径。Matlab仿真环境设计如下:地图大小为100x100 cm,步长为1cm,最大迭代次数为N=100,初始起点坐标为(5,5),目标点为目标(95,95)。仿真实验在不同的障碍物环境下规划了一条从起点到终点的无碰撞路径,并对各算法获得的规划路径的性能进行了评估和分析。
图3到图5显示了RRT、GoalBias-RRT和Q-PRRT算法在统一障碍物环境下的路径规划结果。RRT算法的扩展节点数极高,效率极低,规划路径的优化也非常差。GoalBias-RRT算法通过引入目标偏差启发式,规划路径优化较少,大大提高了算法的效率。Q-PRRT算法具有最佳的路径规划,大大减少了扩展节点,规划路径主动绕过障碍,保证了规划路径的平滑性和最优性。
图6到图8显示了RRT、GoalBias-RRT和Q-PRRT算法在窄信道环境下的路径规划结果。在窄信道环境中,由于窄信道面积小,节点被捕获的概率低,RRT算法扩展节点的随机性导致信道中的勘探效率非常低。目标偏置-RRT算法通过引入目标偏置启发式策略,提高了窄空间下的探索效率,但效率仍然较低。Q-PRRT算法基于划分启发式规则,通过学习获得了质量更好的扩展节点,从而在窄信道中获得了最优的、平滑的路径规划。
图9到图11为RRT、GoalBias-RRT和Q-PRRT算法在诱捕屏障环境下的路径规划结果。RRT算法可以消除陷阱,但扩展效率和路径优化都很差。GoalBias-RRT算法在捕获腔中浪费了大量的效率,只能通过随机采样扩展机制以一定的概率走出陷阱。
Q-PRRT算法集成了目标偏差和避障引导采样策略,基于q-学习方法对随机树的每个节点进行评估,并进行合理的路径规划决策,从而成功地避免陷阱,完成更好的性能路径规划。Q-PRRT算法集成了目标偏差和避障制导采样策略,基于q学习方法对随机树节点进行评估,算法正确决策和规划路径,成功避免陷阱,完成了更好的性能路径规划。
通过对三组仿真环境的测试,可以发现,由于引入了分区启发式机制和学习方法,Q-PRRT算法在规划路径最优性和避免死区方面比RRT和Goalbias-RRT算法更具有优势。表3显示了三种算法的路径规划的性能比较。扩展节点的单位为(pc),扩展时间的单位为(s),路径长度的单位为(cm)。根据10个模拟结果,对表格数据取平均值。
通过分析和总结仿真数据的比较。由于RRT算法具有随机探索采样模式,没有启发式机制,因此其性能具有较高的概率性,但也具有一定的传递能力和逃逸能力。GoalBias-RRT算法是基于一定概率的目标偏差指导,在收敛速度比RRT算法和扩大节点数,但是,很容易陷入局部极值陷阱障碍环境,所以有必要使用随机探索抽样机制以一定的概率协助算法逃脱陷阱。Q-PRRT算法通过引入目标偏差和障碍避免引导抽样策略建立分区启发式规则,基于q学习方法,应用全局最优路径的奖励函数对随机树的每个节点进行评估,然后基于贪婪策略保留路径节点,消除冗余节点。提高了路径搜索效率和避障能力,保证了全局规划路径的最优性,得到了更平滑的规划路径。扩展节点数、扩展时间和规划路径长度的性能都得到了显著提高。
Ⅴ CONCLUSION(总结)
提出了一种基于q-学习的分区启发式RRT路径规划算法。建立了基于目标偏差和避障引导采样策略的分区启发式规则,提高了路径规划的制导和避障能力。采用q-学习的方法建立了全局最优路径的奖励函数。基于贪婪策略对随机树的每个节点进行评估,保留路径节点,消除冗余节点。从而保证了全局最优规划路径,提高了路径的平滑性。仿真结果表明,Q-PRRT算法在扩展节点、扩展时间和路径长度等方面都优于传统的RRT算法和GoalBias-RRT算法。