首例开源的自动驾驶混合运动规划框架，手握“规划可解释”和“决策准确”两张王牌！-优快云博客

本文链接：https://blog.youkuaiyun.com/soaring_casia/article/details/142065856

导读：

本文开发了一种新的混合运动规划方法，将环境和预测信息集成在Frenet坐标系中，提升了运动规划能力。本文将传统运动规划算法的可预测性和稳定性与RL的动态适应性相结合，从而形成了一个能够有效管理复杂情况并适应不断变化的环境条件的系统。©️【深蓝AI】编译

图1｜运动规划代理的混合强化学习原理©️【深蓝AI】编译

1. 摘要

本文介绍了一种自主运动规划的新方法，即在Frenet坐标系中使用强化学习（RL）代理来指导分析算法。这种组合直接解决了自动驾驶中的适应性和安全性问题。运动规划算法对于驾驭动态和复杂场景至关重要，然而，传统方法缺乏不可预测环境所需的灵活性，而机器学习技术，尤其是强化学习（RL），虽然具有适应性，但却存在不稳定和缺乏可解释性的问题。作者独特的解决方案将传统运动规划算法的可预测性和稳定性与RL的动态适应性相结合，从而形成了一个能够有效管理复杂情况并适应不断变化的环境条件的系统。

图2｜Frenetix运动规划器©️【深蓝AI】编译

2. 引言

正如各种碰撞报告所记录的那样，自动驾驶技术在现实世界中的实施拥有极大挑战。这些挑战包括在复杂的城市环境中导航、管理不可预测的交通和行人行为以及在新环境中做出明智的决策。这种不可预测性要求运动规划领域采用高度复杂且适应性强的算法。

传统的分析规划方法通常不足以处理现实世界场景的动态性质，这强调了自动驾驶系统对增强决策能力和强大适应性以确保安全和效率的迫切需求。此外，分析基于规则的模型需要调整参数，这涉及识别和调整适合特定场景的各种设置和参数，这些调整通常是通过专家知识和数值评估技术进行的。值得注意的是，即使是微小的参数变化也会明显影响系统的行为。调整整个系统既低效又昂贵，在处理多种配置和变体时，这一点变得更加明显。

当代机器学习方法，尤其是强化学习，在复杂场景中有望实现出色的性能。然而，学习过程的有效性取决于所使用的特定环境和训练配置。尤其是在自动驾驶中，用于运动规划的机器学习模型成功率较低，或者只能在高速公路驾驶等特定环境和场景中取得成功。此外，复杂场景需要较长的训练时间，并且Sim2Real可能会出现失真问题。此外，这些代理的决策过程通常缺乏固有的透明度，需要在验证和实施安全措施方面付出相当大的努力，以确保其行动的可靠性和可信度。应对这些挑战至关重要，尤其是在安全性和可靠性至关重要的自动驾驶领域。

相比之下，结合分析和机器学习模型的混合方法有望在这两个领域都发挥优势。基于此，作者提出了一种使用两阶段代理进行运动规划的新方法，如图1所示。在这种方法中，分析模型的基础稳健性与机器学习算法的动态学习能力相结合，提高了驾驶行为环境中的性能和适应性。这种混合方法有效地弥补了理论构造与实际应用之间的差距，特别是在具有复杂、非线性数据模式的环境中。特别注意，这些混合模型通常需要较少的数据进行有效训练，在数据匮乏的情况下具有优势。另外，可以将安全方法和附加功能有效地集成到分析规划算法中。

表1｜学习过程的观察空间©️【深蓝AI】编译

3. 相关工作

多年来，自动驾驶运动规划一直是研究的热门领域。目前，已有多种方法被开发用于解决自动驾驶的规划任务。规划方法大体可分为以下几类：

基于图的算法通过节点和边的网络来寻找结构化路径；
基于采样的方法通过生成大量可能性来探索各种轨迹；
基于优化的规划方法则通过系统地评估各种约束和目标来找到最有效的轨迹，其通常使用线性规划、动态规划或基于梯度的优化等技术。

此外，利用人工智能的算法被开发出来用于在动态环境中提供高适应性。自动驾驶研究领域中已有几种机器学习模型可以学习控制方向盘和加速度，这些模型几乎完全使用特定场景进行训练，例如高速公路驾驶或决策代理。虽然这些模型体现出性能的改进，例如类似场景决策的准确性和决策制定的实时性都得到改进，但在更复杂的场景的成功率太低，特别是对于现实世界的应用。还通过逆强化学习研究了学习类似人类的行为。可以学习和采用某些特征的驾驶行为。然而，这并不能从根本上提高自动驾驶复杂场景行为规划成功率。

相关研究探讨了迭代学习和人类反馈如何改善自主机器人在复杂环境中的导航。通过将这些元素集成到传统导航系统中，该研究展示了潜在的性能改进，同时保持了系统的安全性和可解释性，这项研究为开发机器人自适应导航系统提供了一个值得注意的视角。结果虽然很有希望，但主要作为概念验证，它们没有纳入复杂的公共道路环境，也没有考虑到其他道路使用者的预测不确定性。此外，该方法没有集成复杂的分析规划算法；相反，它依靠机器学习来吸收基于专家知识的参数设置。

也有人提出了一种将RL与快速探索随机树相结合的自动驾驶汽车运动规划框架。它专注于有效控制车速和确保安全，使用深度学习技术适应不同的交通状况。该方法的主要问题是其在高维状态空间中的收敛速度慢，这损害了其实时适用性。此外，该方法仅适用于某些场景，限制了其通用性。其他研究采用 RL 通过分析模型确定执行动作的最佳切换点。这种方法适用于诸如定时车道变换和促进不同道路使用者之间的互动行为等场景。当前的研究表明，在探索一种将机器学习与强大的轨迹规划分析算法相结合的混合方法方面存在差距，这种方法可以确保高成功率、实时能力、可解释性和附加安全功能的集成。可以使用这种独立于监督学习数据集的概念来研究其优缺点。

图3｜学习过程结构的类图©️【深蓝AI】编译

4. 方法

本节介绍了基于分析采样的轨迹规划器架构与RL设计的结合，以开发混合运动规划方法。

4.1 基于采样的运动规划器

本文所用的分析轨迹规划算法是基于Frenet坐标系中采样方法，作者使用神经网络的算法来预测场景中的其他车辆。该算法在一个时间步内的流程如图2所示。该流程可归纳为以下主要阶段：

• 车辆状态更新： 车辆使用自我、预测和环境信息更新与Frenet坐标系有关的所有状态。

• 轨迹采样： 该算法根据采样矩阵对可能的轨迹进行采样。作者使用时间、速度和横向采样指标来创建取决于当前自我车辆状态的不同轨迹方案。

• 轨迹运动学检查： 根据单轨模型和车辆参数检查生成的轨迹的运动学可行性。

• 轨迹成本计算： 作者使用不同的成本指标（如碰撞概率、加速度、到参考路径的距离和速度偏移成本）来区分不同轨迹的性能。作者将碰撞概率成本与来自预测信息的其他障碍物相结合。轨迹生成采用C++实现，以减少计算时间并加速训练过程。

• 轨迹碰撞检查： 分析成本最低的轨迹是否可能与车道边界和其他障碍物发生碰撞。此步骤在成本计算步骤之后进行，以提高计算效率。

按绝对成本排序的第一个无碰撞轨迹是更新当前车辆状态的最佳轨迹。根据为每个连续时间步计算的最佳轨迹更新车辆的状态。轨迹涵盖3秒的范围。模拟的时间步离散化为0.1秒。

4.2 强化学习过程

在本节中，作者将集成一个RL算法，该算法优化了后续提出的基于采样的轨迹规划器的轨迹选择过程。对于定制环境和训练过程，作者使用gymnasium4和stable-baselines35。对于代理的模拟环境，作者使用CommonRoad。优化由近端策略优化（PPO）执行，这是一种通过剪辑策略更新来平衡探索和利用的RL算法。它避免了可能导致性能下降的大型策略更新，从而使训练更加稳定和可靠。PPO算法的核心封装在等式中：

$L^{CLIP}(\theta) = \hat{\mathbb{E}}_t [ \min(r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_t)]$