集智书童 | YOPOv2-Tracker开源 | 端到端方法革新，跟踪提速10倍，扰动观测器破解传统框架延迟难题（建议收藏！）

本文链接：https://blog.youkuaiyun.com/csdn_xmj/article/details/148234505

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：YOPOv2-Tracker开源 | 端到端方法革新，跟踪提速10倍，扰动观测器破解传统框架延迟难题

精简阅读版本

本文主要解决了什么问题

1. 高效目标跟踪：在杂乱环境中实现对不可预测目标的高效跟踪，解决传统分离流程引入的显著延迟和累积误差问题。
2. 高速导航：提出一种端到端框架，直接将传感器观测映射到低级控制指令，适用于高速飞行和密集障碍环境。
3. 简化架构设计：通过“少即是多”的设计理念，减少计算延迟和误差累积，提升系统实时性和灵活性。

本文的核心创新是什么

1. 端到端框架设计：将感知、检测、路径搜索和优化集成到一个统一网络中，显著降低处理延迟并保持可解释性。
2. 干扰观测器应用：结合扰动观测器估计模型不确定性和外部干扰，简化实际部署并增强鲁棒性。
3. 无专家训练策略：利用从特权环境中直接反向传播的数值梯度进行训练，无需复杂专家演示或标签分配，提高训练效率。
4. 多模态任务扩展：通过调整成本函数，YOPOv2-Tracker可轻松扩展到其他多模态任务（如高速导航和避障）。

结果相较于以前的方法有哪些提升

1. 实时性能提升：相比传统方法，YOPOv2-Tracker的处理延迟降低一个数量级，实现在毫秒级内的即时响应。
2. 成功率提高：在3至7 m/s的速度范围内，YOPOv2-Tracker始终保持高成功率，优于现有方法在类似速度下的表现。
3. 适应性强：不仅适用于森林等自然环境，还能在城市建筑环境中可靠运行，展示了卓越的跨场景适应能力。

局限性总结

1. 目标遮挡问题：由于缺乏对未来目标轨迹的预测，YOPOv2-Tracker的主要失败原因在于目标被遮挡。
2. 深度感知限制：依赖RGB-D相机的深度感知范围有限（小于10米），对远距离目标的检测和跟踪能力受限。
3. 动态环境适应性：尽管在静态障碍物环境中表现出色，但面对动态障碍物时的反应能力和鲁棒性尚未充分验证。

深入阅读版本

为在杂乱环境中实现对不可预测目标的高效跟踪，先前工作在检测、映射、导航和控制等方面进行了一系列改进，以使整个系统更加全面。然而，这种分离的流程引入了显著的延迟，并限制了四旋翼的灵活性，尤其是在计算能力受限的机载设备上。相反，作者遵循“少即是多”的设计原则，力求简化流程同时保持有效性。在本工作中，作者提出了一种面向四旋翼的端到端敏捷跟踪与导航框架，该框架直接将传感器观测映射到控制指令。重要的是，利用导航和检测任务的多模态特性，作者的网络通过显式集成传统流程的独立模块来保持可解释性，而不是进行粗略的动作回归。具体而言，作者采用一组运动基元作为 Anchor 点，以覆盖可行区域和潜在目标相关的搜索空间。然后，作者将轨迹优化重新表述为基元偏移及其相关成本的回归，同时考虑安全性、平滑性和其他指标。在跟踪任务中，期望轨迹接近目标，并预测额外的物体性分数。随后，在补偿估计的集中扰动后，预测结果被转换为推力和姿态作为控制指令，以实现快速响应。在训练过程中，作者通过直接将轨迹成本梯度反向传播到网络，将传统运动规划与深度学习无缝集成，从而消除了模仿学习中专家演示的需求，并提供了比强化学习更直接的指导。最后，作者在紧凑型四旋翼上部署该算法，并在森林和建筑环境中进行实际验证，以展示所提出方法的有效性。

视频：https://youtu.be/QBWEDoQ4xaQ

代码：https://github.com/TJU-Aerial-Robotics/YOPO-Tracker

1. 引言

深度学习，无人机（UAVs）在多种应用中展现出巨大潜力，并已广泛应用于日益复杂的任务中。动态目标的敏捷跟踪（如图1所示）是促进自主四旋翼无人机在航拍、追捕、人机交互和空地协同等任务中应用的有前景的领域。一种典型的解决方案是将跟踪问题分解为检测、映射、规划和控制等独立的子任务，从而能够为每个模块采用成熟的方法，并使整个系统更具可解释性。然而，这种顺序方法引入了显著的延迟和累积误差，对于高速飞行和杂乱环境中的敏捷跟踪来说是致命的，特别是对于视觉传感器和机载计算资源有限的紧凑型四旋翼无人机。

在本工作中，作者专注于在障碍物密集环境中，通过无人机仅依靠有限的视觉传感器和机载计算资源实现自主避障和快速移动目标的跟踪。当前关于目标跟踪的研究[1]-[3]主要关注轨迹生成问题，以跟随目标，而将检测和控制视为现成模块，甚至使用真实轨迹作为先验。此外，轨迹生成问题通常被分为(i)感知与地图构建，(ii)前端路径搜索，以及(iii)后端轨迹优化。首先，一个高效的感知与地图构建模块是必不可少的，通过维护持续更新的占用栅格地图来提供安全约束并过滤传感器噪声。其次，通常采用考虑目标观测和避障的搜索方法作为前端，以提供粗略的初始路径。最后，后端优化考虑安全、可行性和目标可见性来进一步改进初始路径。尽管这种分离的流程在自主导航中取得了令人印象深刻的结果，但其顺序特性引入了额外的延迟，使得高速和敏捷的机动变得具有挑战性。相比之下，近期的基于学习方法[4]-[6]通过紧密集成鲁棒的感知与高效的规划实现了卓越性能。通过直接从传感器测量中预测导航指令，它们显著降低了感知与行动之间的延迟，并表明诸如地图构建和规划等中间阶段并非必要。然而，现有的端到端策略主要关注推进四旋翼在竞速或导航中的速度极限，而更复杂的任务如目标跟踪仍然是空中机器人领域的研究难题。

在这项工作中，作者提出了一种单阶段端到端追踪器YOPOv2-Tracker（You Only Plan Once），通过利用导航和检测任务解都是多模态这一特性，进一步将目标检测集成到导航策略中。也就是说，目标可能出现在图像中的任意位置，而在四旋翼的视场（FOV）内可能存在多个可行的避障轨迹。为了解决这个问题，目标检测方法[7]通常在每个滑动窗口位置放置 Anchor 框，并使用区域 Proposal 算法来假设潜在的目标位置。随后，每个 Proposal 的特征通过全连接层进行分类和边界框细化。类似地，对于导航任务[8], [9]，搜索具有不同拓扑结构的多个可行路径作为后端优化的初始值，以避免陷入次优局部最小值。之后，应用包含更多约束的基于优化的方法作为后端进行进一步改进。基于此，作者将检测中的 Anchor 框扩展到相机视场内的先验基本轨迹，以彻底探索可行空间并覆盖潜在目标。然后，开发了一个简单的全卷积网络，灵感来自最先进的单阶段检测器[10]，用于预测基本轨迹的偏移量和得分以进行细化。与作者的先前工作[6]不同，训练过程中不仅考虑了安全性和平滑性，还考虑了预测的跟踪性能和目标性得分。最后，考虑目标估计的连续性，部署了非极大值抑制（NMS）来过滤对跟踪不可行或不有效的预测。此外，目标运动预测，无论是使用过去的检测拟合还是由单个网络预测，通常都包含在传统追踪器[1], [2]和自动驾驶[11]中。然而，在实践中，像人类这样的目标灵活敏捷，可能采取欺骗和规避行动来避免被追踪。它们既不遵循预定义的规划策略，也不像自动驾驶中的车辆那样合作。

如图2所示，作者并未通过改进现有框架使其更加全面和复杂，而是遵循“少即是多”的相反理念，通过极简架构力求实现即时响应，从而在杂乱环境中实现高速飞行和激进跟踪。该网络设计力求简洁、直观且富有意义，而非控制指令的黑盒回归。它明确地将感知、检测、路径搜索和传统流水线的优化集成于单次前向传播中。据作者所知，这是首个在杂乱的现实环境中实现对不可预测目标的高速跟踪的端到端追踪器。

利用四旋翼的微分平坦特性，大多数导航方法[4]、[6]、[12]优化多项式或B样条轨迹，并将其离散化为固定间隔的参考状态（位置及其导数），以供位置控制器跟踪。为确保控制中参考状态的连续性，规划器将先前参考状态作为初始值，而不是当前实际状态。这在地图与规划方法中是合理的，因为参考位置的环境信息包含在地图中。然而，对于端到端策略，这在高速飞行时会导致参考状态与实际状态之间的跟踪误差增加，因为只能观察到实际位置处的图像。为避免这种不一致性并减少分层控制中的误差累积，作者进一步移除位置控制器，直接规划姿态，从而消除了参考位置的连续性约束。为应对模型不确定性和最小化仿真到现实的差距，先前基于学习的控制器[5]、[13]、[14]通常利用领域随机化或精确模型辨识。然而，这些技术引入了额外的挑战，例如需要在训练过程中施加干扰或模型变化，并使现实世界的部署更加复杂。与直接预测控制指令的先前方法不同，作者利用微分平坦空间优化轨迹，采用理想质点物理模型，并使用干扰观测器估计模型不确定性和外部干扰。随后，将集中干扰添加到期望加速度（即轨迹的二阶导数）中，具有相同的维度，并将其转换为期望姿态。与先前解决方案相比，作者简化了现实世界的部署，因为策略独立于实际物理模型，干扰观测器的输入可以直接从状态估计器获得。此外，所提出的流程使网络能够专注于探索观测与动作之间的模式，同时将不确定干扰和分析运动动力学模型与策略解耦。

为训练网络策略，通过模仿特权专家或通过试错探索最优策略，利用了模仿学习和强化学习。基于模仿学习的方法[4]、[12]、[15]通过用轻量级网络近似计算成本高的算法，在快速飞行中取得了令人印象深刻的性能。然而，由于导航问题的多模态特性，即使使用多假设赢家通吃（WTA）损失，专家演示的距离也无法代表预测的真实性能。此外，使用显式标签缺乏对动作空间的探索，并使策略严重依赖于专家演示的质量和全面性。相反，强化学习[13]、[16]中的策略通过试错通过环境最大化 Reward 进行训练，这真实地反映了动作的性能，并能够更好地探索。然而，与直接监督相比，强化学习的 Reward 信号通常是Sparse的、嘈杂的、延迟的，导致其难以收敛并倾向于数据密集型。为克服先前方法的局限性，作者提出了一种无需任何专家演示或模拟器交互的端到端训练策略。作者用可微分的特权映射评估的轨迹成本来替换强化学习中通常由评价网络近似的动作值函数，以提供更真实、准确和及时的反馈。扩展传统基于梯度的规划器以优化轨迹参数，作者进一步通过链式法则将梯度反向传播到神经网络的权重。这种无专家策略显著简化了训练过程，并使得能够在滑动窗口中预测更多候选轨迹，而无需复杂的专家演示或标签分配。此外，它允许更灵活的数据增强，而无需重新标注或与模拟器重新交互。利用预构建的特权映射提供的指导进行直接梯度下降，与强化学习中随机采样策略相比，它提高了训练效率，并且可以扩展到更复杂的任务。

最后，作者将所YOPOv2-Tracker部署在配备RealSense D455进行RGBD感知和NVIDIA Orin NX作为机载计算机的紧凑型155毫米四旋翼无人机上。作者在杂乱的森林和城市环境中展示了卓越的计算效率和敏捷的跟踪性能。在验证过程中，四旋翼无人机不仅需要处理逃逸者的规避动作，还需要避开突然出现的障碍物，同时仅有限的视觉传感器和机载计算资源可用。此外，通过修改成本，YOPOv2-Tracker可以轻松扩展到其他多模态任务，如高速导航和避障。

综上所述，所YOPOv2-Tracker实现了一种本能的、受生物学启发的感知到行动过程，用于敏捷跟踪，同时保留了传统流程的可解释性。此外，它通过端到端的梯度反向传播，无缝地连接了经典轨迹优化和深度学习。这项工作的主要贡献如下：

1. 提出了一种端到端的框架，用于敏捷跟踪和高速导航，该框架直接将感官观测映射到Low-Level控制指令。利用避障和检测任务的多模态特性，作者将感知、检测和导航集成到一个统一的网络中，显著降低了处理延迟。
2. 为了减少误差累积并简化实际部署，作者直接根据网络的预测计算期望姿态，同时结合由扰动观测器估计的模型不确定性和扰动。
3. 该网络使用从特权环境中直接反向传播的数值梯度进行训练，并部署到紧凑的物理平台上进行实际场景验证。此外，源代码和硬件平台已公开发布供社区参考。

2. 相关工作

A. 自主导航

四旋翼无人机在杂乱环境中的自主导航是目标跟踪的重要前提，已被广泛研究。早期研究之一[17]通过迭代向碰撞段插入中间航点来确保分段多项式轨迹的安全性。随后，[18]、[19]采用了安全飞行走廊的思想，将轨迹约束在由多个凸形状组成的无障碍空间中。相比之下，其他一些方法通过同时考虑平滑性、安全性和动态可行性来最小化代价函数来优化轨迹。具体而言，[20]、[21]利用欧几里得符号距离场（EsDF）的梯度以及动态约束来优化分段多项式轨迹的航点。相比之下，利用B样条的凸包特性，[22]、[23]通过优化B样条的控制点来确保轨迹的安全性和可行性。为了避免梯度下降优化产生的次优解，[8]、[9]在前端采用拓扑路径搜索算法来全面探索解空间并生成多个拓扑上不同的初始路径。为解决非连续代价和约束问题，[24]采用无梯度模型预测路径积分框架，通过随机扩散过程的正向采样来近似最优轨迹。尽管上述方法的鲁棒性和可靠性已得到广泛验证并在学术界和工业界得到广泛应用，但其级联结构引入了延迟和误差累积，限制了它们在高速飞行中的可扩展性。为突破飞行速度极限，[25]通过新颖设计扩大了重叠球体的走廊空间，从而允许四旋翼无人机以更高速度进行机动。此外，[26]利用激光雷达点云规划轨迹，并将规划范围扩展到不可见空间。他们在自主导航中取得了显著性能，极大地提升了无人机的超高速飞行能力。然而，这些成果依赖于高精度、长距离的激光雷达传感器，限制了它们在配备噪声且受限视觉传感器的紧凑型无人机上的适用性。

与这些方法不同，深度学习的突破为无需显式地图和规划阶段的自主导航提供了替代方案。受益于深度学习的数据驱动特性，[27] 实现了在杂乱自然环境中最早基于学习的导航，仅依靠单目相机。最近，一些基于强化学习的方法 [13], [14] 专注于训练无人机竞速控制器，并超越了人类世界冠军飞行员的表现。然而，由于强化学习的收敛速度慢和数据密集特性，这些应用通常集中于特定的控制任务，而未考虑在未知环境中的感知。相比之下，[4] 采用模仿学习，使用特权专家提供的演示来训练轻量级网络策略，并在野外实现了前所未有的高速性能。类似地，[12] 改进了模仿学习中专家演示与预测之间的标签分配策略。相比之下，利用最先进的可微分模拟，[5] 显著提高了强化学习的训练效率，并实现了基于视觉的快速飞行，仅依靠极其有限的机载资源。不同于预测轨迹或控制指令，其他一些方法 [28], [29] 训练网络以预测预定义运动原语中的碰撞概率。此外，一些基于学习的方法解决了传统规划中难以用数学建模的问题，例如在不同场景中自适应飞行速度以平衡安全性和敏捷性 [30], [31]，以及为分段分配时间以生成平滑快速的轨迹 [32]。与上述工作不同，作者采用类似检测的网络来捕捉导航的多模态特性，并避免由对称架构直接预测多个不同轨迹而引起的模式崩溃问题。此外，YOPOv2-Tracker与动力学无关，并通过扰动观测器解决端到端控制在模型不确定性方面的仿真到真实差距。

B. 目标跟踪

与避障任务相比，目标跟踪任务为运动规划引入了额外的检测模块和跟踪约束。在早期工作中[33][34]，视觉伺服技术被应用于电影拍摄和航拍，通过利用图像中的视觉误差进行反馈控制，以保持目标在视场内。然而，这类方法仅限于无障碍场景的应用，而将跟踪约束融入前端搜索或后端优化的基于规划的方案更为普遍。具体而言，[35]提出了一种目标感知的动力学搜索方法作为前端，并根据启发式搜索的跟踪路径生成走廊。相反，[36]生成一条与预测目标轨迹平行的初始路径，以保持适当的跟踪距离，并在后端优化中仅考虑跟踪成本。此外，[37][38]不仅在前端走廊生成时考虑目标可见性，还在后端优化中优化四旋翼与预测目标视点的距离。在[39]中，优化问题中定义了生成函数，以保持四旋翼与目标之间的不同相对运动模式。考虑到观测距离和遮挡效应，[1]提出了一种遮挡感知路径搜索方法，并通过围绕目标未来航点的一系列扇形可见区域构建的硬约束来保证可见性。不同地，[2]提出了一种可微分的目标准见度度量，用一系列球形区域近似预期的无障碍视场。为了进行更合理的运动预测，[40]设计了一种风险评估函数和状态观测函数，以利用特定姿态估计模块检测的人体关节预测目标意图。除了跟踪人类等目标外，相关技术还可以应用于自适应跟踪、栖息[3]、空中和地面车辆协同[41]以及多无人机捕获和对峙[42]等领域。

然而，现有系统要么使用现成的目标检测模块，如[10]，要么通过将目标位置视为先验信息来忽略检测，该信息可通过AprilTag[35]进行定位，或由目标直接发送[2]。此外，目标运动预测通常是轨迹优化中跟踪约束构建的关键组成部分。某些方法[35][36]通过多项式拟合或贝塞尔回归使用过去的检测结果来预测目标的运动，而其他方法[37][40]进一步考虑动态可行性、避碰甚至意图以进行更合理的预测。然而，人类等目标具有敏捷性，可能采取欺骗和规避动作以避免被跟踪。因此，非合作目标的运动预测不可靠，尤其是在高速规避动作的情况下，这对跟踪系统的实时性能提出了更高的要求。结果，包括检测、建图、规划和控制在内的传统框架仅限于低速、Sparse障碍环境。

与其改进现有框架以使流程更加全面和复杂，例如将可行性或意图纳入目标运动预测，作者采用了一种完全不同的设计理念。作者致力于通过极简架构实现快速响应，从而在杂乱环境中实现高速飞行和激进跟踪。尽管一些方法[43]在端到端跟踪方面进行了开创性尝试，但粗糙的动作回归缺乏对检测和避障的精心设计，限制了其在实验室中的应用。相比之下，YOPOv2-Tracker将传统跟踪流程中的检测、搜索和优化显式地整合到单一网络中。据作者所知，这是首个在杂乱的现实世界环境中实现不可预测目标高速跟踪的端到端跟踪器。

3. 方法

A. 系统概述

所提出的导航和跟踪框架的整体架构如图3所示。该框架以RGBD图像和状态估计为输入，输出姿态和推力作为控制指令。系统设计非常简单直接，主要是一个轻量级的全卷积网络。具体而言，作者使用一系列基元来探索可行解和潜在目标（第三节B），并使用全卷积网络直接预测安全的跟踪轨迹（第三节C）。随后，在考虑外部干扰和模型不确定性的同时计算期望的控制指令（第三节D）。此外，作者利用特权环境信息进行预测评估，并将梯度反向传播到神经网络以进行端到端训练（第三节E）。

B. 轨迹表示

与基于控制的先进方法不同，作者计划轨迹在一个微分平坦输出的降维空间中，这本质上保证了飞行的平滑性和连续性。不考虑完整的动力学和干扰，作者将运动表示为三个独立的单段时间参数化多项式，并单独处理偏航：

C. 统一网络

1. 网络架构：在本节中，作者将目标跟踪的各个独立组件，包括感知、检测和导航，统一到一个神经网络中。如图3所示，该网络以RGB-D图像和6维状态（初始速度和加速度）作为输入，并为每个基本元素预测14维输出，包括偏移量、末端导数、轨迹成本、物体得分和目标位置。通过将目标方向作为输入并移除与目标相关的预测，该框架可以轻松地退化为一个更通用的避障策略。

由于偏航角在微分平坦空间中是独立的，作者单独规划它。如图6所示，作者对轨迹进行离散化以执行，并确保期望的偏航角始终指向估计的目标，该目标通过扩展卡尔曼滤波（EKF）融合以确保平滑性。对于未检测到目标的帧，作者仅执行EKF的预测步骤，并将偏航角指向目标丢失的方向。通过极其简单的端到端设计，作者实现了毫秒级内的瞬时跟踪响应，比传统流程快一个数量级。正如高速飞行领域的一系列近期突破[4], [5]以及第IV节的实验所证明的那样，处理延迟通常更为重要，尤其是在视觉传感器和机载计算资源有限的紧凑型四旋翼无人机上。

D. 控制策略

四旋翼的微分平坦特性使其能够在{x,y,z}方向上独立地使用多项式或B样条进行轨迹规划，这些轨迹随后由位置控制器跟踪。为确保控制中参考状态的连续性和平滑性，规划器将先前参考状态作为递归优化问题的初始值，而不是当前实际状态。这在基于地图的方法[22][23]中是合理的，因为参考位置的环境信息包含在地图中。然而，对于端到端策略（如[4][6]），这在高速飞行时可能是致命的，因为图像只能在实际位置处可观测。如图7所示，网络根据当前观测（绿色扇区）推理的轨迹在实际情况下（蓝色轨迹）是安全的，但如果从参考位置（橙色轨迹）规划，则会导致碰撞。此外，连接外环（位置控制）和内环（姿态控制）的级联控制结构会导致误差累积和响应延迟，使得高速飞行具有挑战性。

为避免这种不一致性并减少分层控制中的误差累积，作者进一步移除了位置控制器，直接从轨迹的高阶导数规划姿态，从而消除了参考位置上的连续性约束。假设四旋翼模型是一个具有四个独立旋翼的六自由度刚体，四旋翼的动力学可以用以下方式描述：

与基于控制的先进策略相比，作者的网络与外部干扰和分析动力学解耦，无需在训练过程中通过注入干扰进行精确模型识别或领域随机化。作者将实际部署简化，因为策略独立于实际物理模型，并且干扰观测器的输入可以直接从状态估计器中获取。此外，与瞬时控制指令相比，在微分平坦空间中预测轨迹自然地确保了更平滑的飞行，并促进了深度学习与传统基于优化的规划器的紧密集成，从而能够使用轨迹成本进行端到端的梯度下降。

训练策略 E

在本工作中，每个预测的成本函数的表述如下：

轨迹优化：在自主导航中训练网络策略时，强化学习和模仿学习被广泛采用，即通过模仿特权专家或通过试错探索最优策略。在基于Actor-Critic的强化学习中，Critic网络被训练以评估动作并指导Actor网络的梯度上升。然而，在导航任务中，它可以被可微分的環境（如ESDF）所替代，该环境能够通过数值梯度提供更直接和准确的评估。在模仿学习中，网络通过减小预测与标签之间的距离进行训练，标签可以由基于梯度的特权专家生成。然而，梯度可以通过链式法则直接应用于网络的权重，无需首先通过多步梯度下降优化专家。基于此，作者开发了一种端到端的训练方法，直接将轨迹成本梯度反向传播到网络中，以指导训练过程。

首先，为了避免因时间不一致的预测和过度曲率导致的不可行动力学而引起的突然动作，作者遵循文献[46]将平滑成本约束为沿轨迹的平方导数的积分。采用公式(2)的形式，平滑成本可以表示为：

与强化学习中策略的随机探索相比，基于轨迹成本和可微环境的直接梯度下降能够提高数据利用率和收敛效率，无需持续与模拟器交互以及耗时的在线传感器渲染。如图8所示，与模仿学习中的专家演示距离相比，所提出的成本函数能够准确表征预测性能，尤其是在多模态问题中。此外，排除专家策略和标签分配策略使得训练过程完全端到端。

综上所述，如公式（16）所示，所有成本函数均应用于正样本以进行跟踪和检测。对于负样本和忽略样本，作者优化安全性和平滑性成本，以确保在测试中无目标出现于该网格或发生漏检时轨迹的可行性。所有原语的运动轨迹成本用于预测选择，而忽略样本的目标性分数则不予考虑以避免混淆。

3. 训练数据集：利用特权信息和深度学习的数据驱动能力，网络策略仅使用噪声传感器观测即可实现鲁棒的导航和跟踪性能。具体而言，特权信息，包括环境真值（点云和ESDF地图）和目标状态，在训练中可用于成本和梯度计算，而网络仅能获取有限的RGB-D图像。与强化学习中的顺序依赖性相比，所提出的训练方法无需与模拟器进行在线交互或获取专家标注，极大地简化了数据集的收集。这使得作者能够通过广泛随机化四旋翼的位姿来提前收集训练数据（仅包含位姿、图像和点云地图），从而节省了训练期间在线模拟器渲染的时间，并增强了向真实世界收集的可扩展性。此外，作者将目标随机放置在四旋翼的视场内，并将其转换为相机坐标系进行标注。作者利用射线投射来验证目标的可见性，以防止错误标注。在真实世界的跟踪应用中，作者使用高精度LiDAR构建环境的真值并记录四旋翼的状态，这可以通过运行LiDAR里程计轻松实现。同时，使用RGB-D相机收集图像。目标由最先进的检测器YOLO进行标注，并结合距离信息将其转换为相机坐标系。

为了提高泛化能力，作者对HSV（色调、饱和度和明度）颜色空间中的RGB观测数据进行数据增强。此外，作者随机采样状态观测数据（速度和加速度），并在每个训练步骤中为每张图像分配不同的状态，以提高图像数据的利用效率。如图9所示，y^z -速度和加速度基于实际测量值从正态分布中采样，而前进速度则遵循对数正态分布，如公式所示：

4. 实验

在本节中，作者展示了所提出的跟踪与导航框架在仿真和真实场景中的性能表现。与传统流程相比，作者说明了所提出的端到端跟踪器的效率，以及其在杂乱环境中的高速跟踪能力。此外，为了验证所提出算法的可扩展性，作者在高密度障碍场景中进行了一系列高速导航实验。更多实验细节可参考补充视频。

A. 四旋翼平台

在本节中，作者设计了一款高速无人机，用于在未知环境中依靠机载传感和计算完成敏捷跟踪和导航任务。如图1所示，该机架基于OddityRC XI35 FPV机架设计，并配备了OddityRC-2006 2150KV电机，每个电机提供超过1000克的推力，并使用GEMFAN 3.5英寸螺旋桨。该无人机具有紧凑的结构，轴距为155毫米，总重量为850克。理论上，它实现了4.7的最大推重比，这使其能够在杂乱环境中进行敏捷飞行。作者采用了一种常见的FPV飞行塔，包括NxtPX4飞行控制器和HobbyWing XRotor 4-in-1电子调速器。作者采用开源固件PX4进行姿态控制，这提供了更好的灵活性和可扩展性。此外，还使用了RealSense D455相机来提供。

硬件开源：https://github.com/TJU-Aerial-Robotics/YOPO-Tracker

B. 追踪任务

1. 仿真对比：在本节中，作者将所YOPOv2-Tracker与在相对较低速度下取得显著性能的两种最先进的开源跟踪器[1]（简称Elas. Tracker）和[2]（简称Vis. Tracker）进行比较。它们分别采用完全不同的优化框架，其中一种通过求解约束优化问题将轨迹限制在走廊和观测区域内（采用硬约束），另一种通过结合安全成本和可见性成本的梯度来优化轨迹（采用软约束）。大多数先前工作，如[1]、[2]，不考虑目标的3D检测和状态估计，而是向跟踪器广播目标的位置。然而，在现实应用中，目标位置通常不可用，因为目标可能不合作，甚至采取规避动作以避免被跟踪。因此，在本工作中，实验条件被设置为更具挑战性，仅提供有限的机载传感器观测（RGBD图像）来模拟不可预见的遮挡和目标丢失。为了公平性，采用广泛使用的检测器YOLOv5-s，该检测器在与YOPOv2-Tracker相同的训练数据集上进行训练，并结合深度信息进行3D位置估计，为 Baseline 方法提供目标信息。此外，与结构化人工环境不同，作者的实验是在平均净空高度为4米的随机杂乱森林[4]中进行的。作者为逃避者使用Fast Planner[22]，该逃避者可以访问环境的特权点云地图，以防止高速飞行时的规划失败。相比之下， Baseline 方法需要在线映射，因为只有噪声深度图像可用，这使得高速飞行具有挑战性，正如[4]中所述。此外，跟踪器的里程计直接从模拟器中获取，因为本工作中不考虑定位。

作者首先将实时性能与 Baseline 方法进行比较，如图10A所示。测试系统为Ubuntu 20.04，硬件配置为Intel i7-9700 CPU、NVIDIA RTX 3060 GPU和32 GB内存。在图10A中，映射包括射线投射、网格地图构建和ESDF生成（如果存在）。前端由路径搜索和走廊生成（如果存在）组成，而后端代表轨迹优化。在串行计算总耗时为66.7 ms的情况下，Vis. Tracker产生最高的处理延迟，其中近50 ms用于映射和ESDF构建。为明确说明，映射延迟不仅取决于更新范围（在作者的实验中设置为16×16×8 m²，分辨率为0.2 m），还取决于环境的复杂性，因为ESDF是从所有占用网格计算得出的。因此，作者的结果与文献[4]中的结果一致，因为作者使用了相同的非结构化森林场景。相比之下，无ESDF方法的Elas. Tracker表现出更快的实时性能。然而，低精度视觉传感器和动态物体向地图引入了额外噪声，这对基于走廊的方法[1]尤其具有挑战性，因为飞行走廊必须保持清晰。

因此，需要时间滤波操作来应对感知错误。结果，系统需要多次观测才能完全将障碍物添加到地图中，进一步增加了有效延迟。相比之下，YOPOv2-Tracker比 Baseline 方法快一个数量级以上。它能够在平均仅3 ms内将传感器观测映射到Low-Level控制指令，包括在TensorRT部署后2 ms的网络推理时间，以及额外的1 ms后处理时间。首先，作者用轻量级网络替换感知和映射过程，并利用特权学习和数据驱动特性实现具有竞争力的噪声鲁棒性。其次，受检测和导航之间多模态相似性的启发，作者将两个任务集成到一个统一网络中，并在轨迹预测中考虑跟踪标准。第三，作者通过一组预定义的基元（类似于检测中的先验 Anchor 框）全面探索解空间，并并行预测偏移量以进一步改进。此外，作者根据预测的成本选择最佳轨迹，并仅求解其系数以执行。利用网络的并行预测能力，YOPOv2-Tracker避免了传统拓扑引导方法[8]、[9]中计算成本随优化轨迹数量线性增加的问题。此外，作者直接将预测转换为姿态推力指令，从而在减少延迟的同时消除了级联控制结构中的误差累积。通过具体设计，YOPOv2-Tracker显著提高了实时性能，同时保持了系统的可解释性。

随后，作者比较了所提方法与 Baseline 方法的成功率，其中目标的逃逸速度在3至7 m/s之间变化。作者对每种速度重复进行10次实验，从森林中随机位置初始化，树木根据强度为1/16 tree/m²的均匀泊松点过程随机分布。追踪器和目标均从无遮挡区域起飞，以确保目标在初始阶段可见。目标的目标点设置为前方40米处，并在中途随机切换，以模拟逃逸过程中的规避动作。如果追踪器能够有效跟随目标到达终点且无碰撞，则视为成功。此外，如前所述，追踪器仅能获取有限的机载视觉观测数据，而逃逸者则可获得环境的真实地图。此外，受益于归一化输入和预测，作者在不同速度的实验中使用了相同的预训练模型，而无需进行微调。如图10B所示，传统 Baseline [1]、[2]在低速下表现优异；然而，随着目标速度的增加，它们的表现显著下降。这与原始论文中所示的实验结果一致，其中目标的最高速度为2.2.5 m/s。此外，作者研究了跟踪过程中的失败原因，将其分为规划失败（碰撞或紧急停止）和目标丢失（逃出视场或被遮挡）两类。

如图10C所示，Elas.Tracker的失败主要是由规划失败引起的，这可归因于噪声敏感的走廊和低精度视觉传感器。如近期突破所示，基于硬约束的方法[25]、[26]在高速导航中表现出色，但依赖于大规模和高精度的LiDAR。然而，在有限的视觉传感器和非结构化场景下，地图通常存在延迟和噪声，导致飞行走廊和目标观测区域碎片化和狭窄。尽管后端优化高效，但不当的约束会导致不合理解或规划失败。在更高速度下，这变得更加关键，因为紧急停止会导致目标迅速逃逸。相比之下，Vis.Tracker在没有严格安全约束的情况下相对更能抵抗地图噪声，尽管增加的延迟仍然限制了其在更高速度下的性能。然而，其可见性性能低于Elas.Tracker（将在后面讨论），导致更高比例的跟踪失败归因于目标丢失。当目标进行敏捷动作时，可能会逃出视场，尤其是在低速下，急转弯更频繁发生。相反，由于运动学约束，目标路径在更高速度下更平滑，导致在更高速度下成功率显著提高。

相比之下，YOPOv2-Tracker在3至7 m/s范围内始终能实现高成功率，即使逃逸者拥有优先信息也难以达到这一最高速度。一方面，简洁的设计显著降低了延迟和累积误差。如近期关于高速飞行的研究[4]、[5]所示，处理效率对于速度增加的自主四旋翼至关重要。另一方面，受益于深度学习的数据驱动特性和优先学习策略，YOPOv2-Tracker在仅依赖机载传感器观测的情况下，表现出与拥有真实地图的逃逸者相当的噪声鲁棒性。此外，多模态预测能够全面探索解空间，防止陷入不可行的局部最小值。因此，YOPOv2-Tracker在高速飞行中展现出卓越的敏捷跟踪和避障能力。然而，由于缺乏目标轨迹预测，YOPOv2-Tracker的主要失败原因是目标遮挡，如图10C所示。

作者最终在3m/s的速度下，通过10次试验比较了平滑度成本（通过平方加加速度的积分评估）和安全性能（通过与障碍物的最小距离评估）的分布，并额外评估了YOPOv2-Tracker在不同速度下的表现。结果分别如图10E-F所示。 Baseline 方法的平滑度成本较高，可以总结如下。基于硬约束的方法[1]涉及制动和加速以保持适当的跟踪距离或避免突然的障碍物，以及在狭窄走廊中由于地图噪声而导致的偶尔蜿蜒轨迹。为了确保无障碍的视野[2]会付出较宽的迂回和靠近障碍物时的突然加速，特别是在密集的森林中。相比之下，YOPOv2-Tracker实现了更好的平滑度和安全性，并且在7m/s时的性能与 Baseline 在3m/s时的性能相近。YOPOv2-Tracker中只有一次与障碍物的最小间隙小于0.2米，发生在7m/s时。如前所述，所提出的网络策略通过特权学习，仅通过噪声的车载观测即可实现与特权专家相当的性能。此外，作者考虑了安全性和平滑度成本，从一组候选中选择最佳预测，从而避免了紧急制动和不必要的减速。

总之，与传统的级联 Pipeline 相比，YOPOv2-Tracker通过简洁的设计理念，在减少计算延迟和误差累积方面具有显著优势。此外，利用数据驱动的特性来增强噪声鲁棒性和多模态预测，以实现广泛的探索，它在高速飞行和敏捷跟踪方面展现出卓越的能力。

2. 大规模追踪：作者在仿真中进行了更具挑战性的实验，以定性地展示作者的性能，其中目标飞虫沿着一个∞形路径在一个大规模地图中飞行，最大速度设置为7 m/s。类似地，真实地图对目标可见，而追踪器仅能获取RGB-D图像和自身的里程计。实验场景以及逃逸者和追踪器的完整路径如图11所示，其中追踪器的路径按速度进行颜色编码。该场景包括大角度的急转弯（例如图11E）、密集区域中的遮挡和障碍物（例如图11F），以及开阔区域中的快速逃逸，这些都给追踪器带来了相当大的挑战。如图11A-G所示，YOPOv2-Tracker在面对障碍物遮挡、深度观测噪声、目标敏捷的机动和高速度逃逸等挑战时，始终能够保持稳定且积极的追踪。

此外，作者在图12中绘制了整个跟踪过程中目标状态估计误差的分布，包括存在遮挡的帧。误差是通过将模拟器的真实位置和作者的结果投影到跟踪器的视场内的x-y平面来计算的。为了澄清，作者使用EKF实现更平滑的状态估计并补偿漏检，而不预测目标的未来轨迹。此外，作者使用更大的过程噪声来优先预测作者的网络。如图12所示，在7 m/s跟踪过程中，横向（y方向）误差保持在±0.5 m范围内。纵向方向（即深度）的误差较大，但仍保持在±0.75 m范围内。这确保了目标保持在视场的中心，通过将航向指向其位置。

3. 实际场景实验：在本节中，作者首先在一个覆盖约3600平方米的大规模密集森林中进行目标跟踪实验。如图13A所示，该环境杂乱无序，树木间距为3·4m，且整个森林中低垂的植被密集。在真实场景实验中，作者将人作为被跟踪目标，该目标具有高度敏捷性，能够迅速穿梭于森林中（例如图13B5）并执行规避动作，如突然转弯（例如图13B7）。与先前工作不同，跟踪器在没有任何关于被追踪者的先验信息的情况下运行，被追踪者不遵循任何预定的逃生策略，且与跟踪器无任何交互。唯一的假设是目标在任务开始时可见，这可以无缝集成到上游的探索任务中[47]。此外，密集森林引入了不可避免的遮挡，对四旋翼的安全性提出了重大挑战，因为任何制动都可能导致目标的永久丢失。此外，更大规模的环境对算法的鲁棒性和可靠性提出了更高的要求，需要无人机持续紧密地跟随目标，同时迅速避开未预见的障碍物。

结果展示在图13B和补充视频中，其中追踪器的路径通过视觉里程计获得，并在地图

上用坐标轴可视化，而目标位置不可用。此外，环境地图仅用于可视化，而四旋翼仅能获取带噪声的RGB-D图像。所提出的系统完全在机载运行，并在NVIDIA Orin NX上实现了从感知到行动的平均延迟仅为8.2毫秒。快照B1-B4由安装在逃避者后面的动作相机拍摄，以从逃避者的视角展示追踪器。白色箭头指示追踪器对目标突然方向变化和规避动作的敏捷机动。快照B5-B8是机载相机对应的RGB观测，如图13中 Token 的位置所示。如图所示，尽管存在外部挑战（如杂乱环境、敏捷目标和低光黄昏）和内部限制（如运动模糊、噪声深度图像和有限的机载计算资源），四旋翼仍实现了高速和长程跟踪。作者实现了6m/s的最大速度，这比现有最先进方法在杂乱真实场景中快2倍以上（文献[2]中报道的最大速度为2.5m/s）。这些结果突显了YOPOv2-Tracker在复杂未知环境中的优越跟踪能力。

随后，作者在一所废弃学校（如图14A所示）进行了实验，以验证作者的算法在复杂建筑环境中的性能。该设置与野外实验一致，无人机完全基于机载计算和传感器进行操作，无法获取任何外部或地面辅助信息。如图14B1-B5所示，目标首先穿过灌木丛和土丘，穿越教学楼，然后在开阔区域加速，上楼进入二楼自助餐厅，并在室内盘旋。该场景包含更多样化的环境，包括狭窄的室内走廊、开阔的室外校园以及带有楼梯的多层结构，这对持续跟踪提出了重大挑战。图14B中的实验结果表明，YOPOv2-Tracker能够可靠且持续地跟踪高速移动的不合作目标。除了上述丛林中的困难外，追踪器还面临狭窄的门廊和室内外过渡引起的剧烈光照变化。总之，一系列具有挑战性的真实世界实验验证了YOPOv2-Tracker在高速、敏捷跟踪方面的有效性和实用性。

C. 导航任务

1. 仿真对比：如图3所示，通过移除目标相关预测并输入期望飞行方向，YOPOv2-Tracker可以轻易退化成通用导航策略。为进一步验证所提算法的可扩展性，作者在密集环境中进行了额外实验，以验证其高速导航能力。作者将成功率与最先进的开源视觉规划器[4]（称为Agile）进行了比较，后者在高速飞行方面取得了突破性进展。实验在平均间距为4米和5米的更密集随机森林中进行（分别对应1/16和1/25树/m²的密度）。四旋翼的前进速度在4 m/s至10 m/s之间变化，作者对每个难度 Level 重复进行10次试验，并使用不同的森林实现。目标设定在前方40米处，若无人机无碰撞到达目标，则视为试验成功。如图16所示，YOPOv2-Tracker在高速导航任务中也具有竞争力，特别是在障碍物密集环境中表现出优于 Baseline 的性能。结果可解释如下。受具有数千个预测的检测网络的启发，作者的结构本质上具有多模态性，可以通过一组 Anchor 点原语更好地探索解空间，从而提供更多可行的候选方案。此外，基于 Anchor 点的预测确保了轨迹与图像特征之间的明确对应关系，防止了数值不稳定和模式崩溃（所有预测都收敛到相同结果）。另一方面，作者的无专家训练策略将传统的轨迹优化与网络训练中的梯度下降无缝集成，提供了更现实的评估，消除了标签分配，并支持更多预测。这种无专家策略还简化了数据收集，无需在线渲染或重新标注即可进行广泛的随机采样和数据增强。此外，感知到动作的设计增强了规划与控制之间的协调，消除了级联控制结构的误差累积。

作者在图15中可视化了一个以10 m/s速度进行的飞行试验，平均净空高度为4 m，并展示了快照A-F中的多模态预测。由里程计轴显示，四旋翼在穿过密集障碍物时执行了激进机动。在快照图15A-F中，预测轨迹根据相应的成本进行颜色编码，几乎所有轨迹都是可行的。作者根据成本选择最优预测，考虑平滑性和安全性性能以确保时间一致性，因为拓扑切换会导致较大的冲击和平滑性成本。

2. 真实环境实验：在本节中，作者展示了作者的策略在杂乱真实环境中的导航性能。先前的方法[4], [5]在相对Sparse的环境中实现了显著的最高速度，显著推动了基于视觉的规划器的速度极限。相比之下，作者通过一系列高速飞行，突出了作者的多模态方法在远更密集的森林中的竞争力。

作者首先在一个大规模野外森林进行实验，如图17A所示。该环境高度杂乱且障碍物密集，树木间距约为3·4米，且存在低垂的枝叶。目标点设置为前方90米，最大飞行速度设置为8m/s。四旋翼在飞行过程中完全自主运行，仅依靠有限的视觉传感器和机载计算资源。这对导航算法的实时性能和可靠性提出了重大挑战，因为它必须立即响应以应对突发和意外的障碍物。图17B展示了通过视觉里程计记录的飞行路径，该路径灵活且激进。机载相机拍摄的快照图17B1-B8对应于飞行路径上 Token 的特定位置。此外，图17C展示了沿每个方向的速度曲线，这些曲线在世界坐标系中绘制，并以前进长度作为水平轴，与图17B保持一致。随后，作者在另一个较小但更密集的森林中进行飞行测试，其中最小安全间隙小于2米（如图18A1所示）。目标点设置为前方35米，最大飞行速度同样设置为8m/s。飞行路径如图18A所示，相应的快照图18A1-A3是在飞行过程中从第三人称视角拍摄的。完整演示可以在补充视频中找到。总之，一系列实际世界实验表明，YOPOv2-Tracker在更密集环境中进行高速导航时表现出与当前最先进方法相当的性能。此外，作者避免了规划中实际感知与参考状态之间的冲突，减少了级联结构中固有的误差累积，并通过输出推力姿态作为指令来支持更大的机动性，从而实现了比作者先前工作[6]（在5.5m/s飞行时位置误差超过0.5米）更快的飞行速度。

与通过端到端网络预测控制指令相比，作者仍然在微分平坦空间中规划轨迹，这有助于预测评估，并内在地确保运动的平滑性。此外，YOPOv2-Tracker独立于四旋翼动力学，从而消除了仿真与实际部署之间的模型不匹配，实现了无缝迁移到不同的物理平台。在训练过程中，作者使用理想化的质点模型，并未引入任何扰动或模型变化以进行域随机化，也无需对实际物理平台进行识别。相比之下，作者采用扰动观测器在线估计主要由空气动力学阻力力和外部扰动引起的集中扰动，仅依赖于易于从视觉里程计获取的当前状态观测。扰动观测器的有效性在图19中进行了可视化。

5. 结论

在本工作中，作者提出了一种针对四旋翼机的端到端敏捷跟踪与导航框架，该框架直接将传感器观测映射到Low-Level控制指令。作者并未通过改进现有规划框架来使流程更加全面和复杂，而是致力于简化流程，并实现一种本能的、受生物学启发的感知到行动过程，以实现敏捷跟踪。作者的架构设计简洁且可解释，将传统流程中的检测、搜索和优化显式地整合到单一网络中。作者通过干扰观测器解决物理模型与仿真之间的不匹配问题，并将预测转换为指令以减少级联控制的误差累积。作者通过直接将轨迹成本梯度反向传播到网络中，将传统轨迹优化与深度学习无缝衔接，从而实现无需专家监督或在线模拟器交互的端到端训练。最后，作者进行了一系列现实世界的跟踪和高速导航实验，以验证作者算法的效率。