引言 无人机在复杂环境中的自主导航是一项重要且具有挑战性的任务,例如搜索救援、电力巡检和物流运输等领域。传统的导航方法通常采用“感知-建图-规划-控制”的框架,然而这种级联结构容易导致误差累积和延迟,尤其在高速飞行和动态环境中表现不佳。此外,由图1所示,以主流的传统导航方法为例,建图占据了大量的计算与内存资源,进一步限制高速飞行和动态环境的表现[1]。近年来,端到端学习方法逐渐兴起,试图直接从传感器数据学习控制策略,从而简化导航流程并提高效率。
©️【深蓝AI】编译
论⽂题目:Back to Newton’s Laws: Learning Vision-based Agile Flight via Differentiable Physics
论文作者:Yuang Zhang, Yu Hu, Yunlong Song, Danping Zou, Weiyao Lin
论文地址:https://arxiv.org/abs/2407.10648
▲图1|传统方法CPU与内存消耗占比©️【深蓝AI】编译
端到端学习方法的核心思想是直接学习从传感器输入到控制命令的映射关系,从而绕过中间的建图和规划步骤。这种方法可以显著降低系统延迟,并提高对动态环境的适应能力。尽管端到端学习具有诸多优势,但其在实际应用中仍面临一些挑战。首先,端到端模型的性能依赖于高质量的数据,而获取足够的高质量无人机导航数据成本高昂且极为困难。其次,如果采用强化学习方法进行训练,过程往往非常复杂,训练效率低下,并且模型的表现严重依赖于代价估计网络的质量,这增加了模型的训练难度。这些问题仍然是制约端到端学习在无人机导航等领域广泛应用的关键障碍。
算法理论
针对上述问题,本文提出了一种基于可微物理仿真的端到端视觉导航方法,该方法的核心思想是将物理引擎集成到学习回路中,通过反向传播算法直接优化控制策略。 可微物理模拟器能够计算损失函数关于控制策略参数的梯度,从而实现高效的策略学习。系统总体框架如图2所示,通过与环境交互来训练策略网络。 策略网络接收深度图像作为输入,并输出控制指令(推力加速度和偏航角)。 可微物理模拟器根据控制指令模拟无人机的运动,并生成新的深度图像和奖励信号。 代价函数由多个子项组成,包括速度跟踪代价、避障代价、平滑代价等。 通过最小化代价函数,可以优化策略网络的参数,使其能够在复杂环境中实现安全高效的导航。