强化学习在自主直升机飞行及分类算法中的应用
1. 强化学习在自主直升机飞行中的应用
1.1 动态规划方法
在自主直升机飞行控制中,可采用相关方法计算最优策略。具体步骤如下:
1. 计算第一步中获得的线性二次型调节器(LQR)问题的最优策略,并将当前策略设置为该LQR问题的最优策略。在第一次迭代时,由于初始策略不可用,线性化操作围绕机动的目标轨迹进行。
2. 这种方法可用于执行多种自主飞行机动,如原地翻转、翻滚、“漏斗”飞行(高速侧向圆周飞行)以及自主自转着陆(在发动机或尾桨故障时,熟练飞行员使直升机安全滑翔着陆的紧急操作)。
然而,微分动态规划(DDP)在解决非线性优化问题时,依赖非线性模型的准确性来预测直升机的飞行轨迹。在实际应用中,由于随机性和建模误差,直升机往往无法紧密遵循预测轨迹,导致线性化成为对非线性模型的高度不准确近似。为解决这一问题,可采用在线计算DDP解决方案的方法,围绕当前直升机状态开始的轨迹进行线性化,确保模型始终围绕接近直升机实际飞行路径的轨迹进行线性化。
1.2 学徒学习和逆强化学习
在为马尔可夫决策过程(MDP)计算策略时,仅找到在模拟中表现良好的解决方案可能并不足够。可能需要根据飞行测试结果调整模型和奖励函数,因为建模误差可能导致控制器在模拟中表现完美,但在现实中表现不佳或完全失效。同时,不良的奖励函数可能导致控制器对建模误差或未预测到的扰动不鲁棒。
如果有人类“专家”进行飞行演示,可利用这些演示飞行来获得更好的模型和奖励函数。奖励函数编码了直升机应遵循的轨迹以及不同类型误差之间的权衡。若期望轨迹不可行或权衡指定不正确,会导致控制问题变得更加困难。
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



