28、追踪机器学习挑战:准确性阶段与高效步态学习

机器学习在轨迹追踪与步态控制中的应用

追踪机器学习挑战:准确性阶段与高效步态学习

1. 追踪机器学习挑战准确性阶段概述

在追踪机器学习挑战的准确性阶段,出现了多种算法和方法。其中,评委深度学习获奖算法采用了循环神经网络架构。该模型输入一组 5 个命中四元组,随后是 5 个空白坐标,最终输出总共 10 个命中位置四元组,最后 5 个用于在探测器中寻找匹配命中。此模型为双堆叠 LSTM,搭配一个密集模型将隐藏表示转换到命中位置四元组空间,能在不预先损失可预测性的情况下加快训练速度。该方法使用 RNN 进行轨迹跟踪,并借助起始套件快速获取一组优质种子。不过,算法性能很大程度上依赖于种子机制,存在较大改进空间,且此算法设计上只能提供包含 10 个命中的轨迹候选。

1.1 组织者青睐的算法:Diogo

Diogo R. Ferreira 是里斯本大学专注于数据科学和核聚变的教授/研究员。他的解决方案虽总体得分不佳(排名第 100),但在大冲击参数轨迹上表现独特出色。该解决方案使用的模式匹配算法也见于实际 LHC 触发实现中,其基于训练数据集包含探测器碰撞期间所有可能观察到的轨迹模式这一假设。此 Python 算法主要有以下两个步骤:
- 路线数据库构建 :由于轨迹很少共享所穿过模块的有序序列,因此从探测器的唯一模块序列构建路线。路线由模块 ID 序列和模型上命中的预期位置组成(如图 22 所示)。若训练数据集中多条轨迹具有相同模块序列,则根据平均位置进行预测,同时使用训练数据集中提供的命中权重对路线上的命中位置进行平均,以倾向于更高得分。
- 命中匹配 :在每个模块上至少有一个命中的路线用于构建轨迹候选。若候选命中被多条路线共享,则将该命中分配给与路线预测位置平均距离最小的轨迹候选。

这种模式匹配算法对于靠近束线产生的轨迹表现不佳,可能是初始假设对这类轨迹不成立。因为路线在可能轨迹空间中覆盖了不可忽略的有限体积,路线上轨迹参数密度过高导致模糊性。但对于在次级顶点产生的轨迹效果较好,可能是轨迹参数空间中的密度低得多,使得在模糊路线内的命中关联明确。

2. 经验教训

在排名靠前和获奖的解决方案中,出现受当前带电粒子追踪算法中种子、轨迹跟踪、轨迹选择三阶段方法启发的算法并不意外。不过,这些基线方法的变体对未来追踪算法的发展很有意义。

2.1 准确性驱动步骤

获胜解决方案在每一步对准确性损失的监控,可能是其在竞赛中成功的关键。开发和改进主要以保留几乎所有优质轨迹和命中为导向。尽管挑战的指标不能直接应用于每一步和每次迭代,但参与者能够找到有用且现实的代理指标,帮助他们在不损失最大目标得分的情况下开发算法。

2.2 数据驱动的磁场估计

挑战数据模拟中使用的磁场模型未在数据集描述中提供,目的是简化数据集发布。然而,参与者发现由于磁场不均匀,预测准确性有所损失。所应用的修正以数据驱动方式得出,不仅包含磁场的实际变化,还涉及组成探测器的材料量。由于实际探测器几何形状建模不完善,重建软件中使用的磁场和材料模型只是近似值,可能导致不准确。这种数据驱动的磁场和几何模型测量未来可能催生更好的算法。

2.3 深度学习的计算成本

将深度学习应用于挑战中大量训练数据的团队面临计算资源限制。即便使用通用图形处理单元(GPU),训练模型也需数天时间。而且,此类模型的超参数相空间未被完全扫描以获取最优集。参与者未报告若有更多资源和时间,其提出的解决方案是否会表现更好。不过,无论训练模型和优化超参数集耗时多久,训练好的模型使用起来可能极快,甚至可能比传统方法更快。

2.4 超参数调整

深度学习方法并非唯一需要调整超参数的算法。挑战中许多解决方案由参与者凭借算法知识和直觉手动调整。更系统的方法可能需要更多计算资源来全面评估算法性能。进一步的调整方法可包括使用性能函数的高斯过程回归进行贝叶斯优化,或使用进化算法找到所提方法的最佳运行点。在以单一分数衡量优劣的挑战中,此类超优化相对容易实现(但需更多资源)。然而,在实验软件中的带电粒子重建场景下,可能不存在唯一的追踪衡量标准。多个对科学产出有相互制衡重要性的量都起作用,且科学产出无法直接量化。

2.5 噪声驱动的组合爆炸控制

某解决方案受经典带电粒子追踪算法启发。特别是在轨迹跟踪步骤中,每一步考虑的候选命中数量并非通过预测位置的估计误差(计算成本高)来控制,而是利用轨迹异常值的密度。这种方法可能实现更快速的软件,并精确控制算法复杂度。它可能有助于恢复在探测器轨迹中经历大统计波动的轨迹模式识别效率。当然,增加且受控的树大小需与显著的计算增益相平衡才有益。

以下是 Diogo 算法步骤的 mermaid 流程图:

graph LR
    A[开始] --> B[路线数据库构建]
    B --> C[命中匹配]
    C --> D[结束]
步骤 描述
路线数据库构建 从探测器的唯一模块序列构建路线,考虑模块 ID 序列和命中预期位置,根据平均位置预测,使用命中权重平均位置
命中匹配 用每个模块至少有一个命中的路线构建轨迹候选,若命中共享则分配给平均距离最小的候选

追踪机器学习挑战:准确性阶段与高效步态学习

3. 结论与展望

追踪机器学习挑战的准确性阶段引入了多种方法,其中一些在该领域具有创新性。算法质量很高,在广泛参数范围内达到了 99% 的效率,表明其质量与现有技术相当。由于挑战是竞赛,尽管有活跃的讨论论坛,但排名靠前的参与者之间合作较少。不过,得益于参与者发布的软件,已经开始了结合不同想法开发算法的更深入研究。

从领域角度看,目标是获得高质量且快速的新算法。在第一个准确性阶段,除了对参与者实际可行的要求外,未对执行时间设置激励机制。在赛后调查中,报告的每个事件处理时间在 10 分钟到 1 天之间。吞吐量阶段于 2018 年 10 月至 2019 年 3 月在 Codalab 上启动,撰写本文时仍在进行中。已经有迹象表明,一些参与者能在几秒内获得很高的分数,这是两阶段方法成功的初步迹象。

4. 高效步态学习
4.1 引言

强化学习在游戏和控制系统中展现出巨大潜力,但高维非线性系统的控制问题仍然具有挑战性。例如,使用深度确定性策略梯度(DDPG)等离策略学习方法解决人形控制问题存在困难,DDPG 容易陷入次优解。OpenSim 是一个精确的运动模拟器,但由于其复杂性和高计算成本,在 OpenSim 上进行强化学习是一项重大挑战。

NeurIPS 社区自 2017 年起发布基于 OpenSim 的强化学习竞赛。2018 年竞赛的目标是在肌肉骨骼模型上训练控制器,以跟踪随时间随机切换的目标速度。提交的解决方案根据机器人在 1000 帧内实际速度与目标速度的平方误差总和进行评估。与 2017 年的竞赛相比,2018 年竞赛的环境具有假肢腿和完整的 3D 动力学。

4.2 背景
  • 深度确定性策略梯度 :在每个时间步 t,智能体从环境接收当前观察 st,并执行由确定性策略 μ(st) 得出的动作 at,该策略由参数 φ 表示。环境返回新的观察 st+1 和奖励 rt。使用 Qμ(st, at) 表示策略 μ 下的价值函数,γ 为衰减因子。使用带参数 θ 的 Qθ 作为最优策略下价值函数 Qμ∗ 的函数逼近器。DDPG 通过最小化时间差分误差 Lθ 来更新策略函数 μφ(at|st) 和动作 - 状态函数 Qθ(st, at),并相对于策略最大化价值函数:
  • 最小化 Lθ = (rt + γ Qθ′(st+1, μφ′(st+1)) − Qθ(st, at))² 关于 θ
  • 最大化 [Qθ(st, μφ(st))] 关于 φ
    φ′ 和 θ′ 分别是参数 φ 和 θ 的延迟副本。DDPG 是一种离策略学习算法,因为其目标策略(μφ′)与行为策略(μφ)不同。

为解决复杂环境中的问题,团队采用了以下方法:
- 深度探索扩展 :为缓解高维空间中的探索困难,利用深度探索方法并将其扩展到连续控制。
- 课程学习 :为解决复杂环境中常见的局部最优问题,遵循课程学习范式,设计一系列渐进式任务以提高最终性能。

通过这些方法,团队“Firework”赢得了 NeurIPS 2018: AI for Prosthetics 挑战,比第二名高出 30 多分。

以下是 DDPG 算法流程的 mermaid 流程图:

graph LR
    A[开始] --> B[接收观察 st]
    B --> C[执行动作 at]
    C --> D[环境返回 st+1 和 rt]
    D --> E[更新 Qθ 和 μφ]
    E --> B
步骤 描述
接收观察 st 智能体从环境获取当前状态
执行动作 at 根据策略 μ(st) 执行动作
环境返回 st+1 和 rt 环境给出新状态和奖励
更新 Qθ 和 μφ 最小化 Lθ 并最大化价值函数
【四轴飞行器】非线性三自由度四轴飞行器模拟器研究(Matlab代码实现)内容概要:本文围绕非线性三自由度四轴飞行器模拟器的研究展开,重点介绍基于Matlab代码实现的四轴飞行器动力学建模仿真方法。研究构建了考虑非线性特性的飞行器数学模型,涵盖姿态动力学运动学方程,实现了三自由度(滚转、俯仰、偏航)的精确模拟。文中详细阐述了系统建模过程、控制算法设计思路及仿真结果分析,帮助读者深入理解四轴飞行器的飞行动力学特性控制机制;同时,该模拟器可用于算法验证、控制器设计教学实验。; 适合人群:具备一定自动控制理论基础和Matlab编程能力的高校学生、科研人员及无人机相关领域的工程技术人员,尤其适合从事飞行器建模、控制算法开发的研究生和初级研究人员。; 使用场景及目标:①用于四轴飞行器非线性动力学特性的学习仿真验证;②作为控制器(如PID、LQR、MPC等)设计测试的仿真平台;③支持无人机控制系统教学科研项目开发,提升对姿态控制系统仿真的理解。; 阅读建议:建议读者结合Matlab代码逐模块分析,重点关注动力学方程的推导实现方式,动手运行并调试仿真程序,以加深对飞行器姿态控制过程的理解。同时可扩展为六自由度模型或加入外部干扰以增强仿真真实性。
基于分布式模型预测控制DMPC的多智能体点对点过渡轨迹生成研究(Matlab代码实现)内容概要:本文围绕“基于分布式模型预测控制(DMPC)的多智能体点对点过渡轨迹生成研究”展开,重点介绍如何利用DMPC方法实现多智能体系统在复杂环境下的协同轨迹规划控制。文中结合Matlab代码实现,详细阐述了DMPC的基本原理、数学建模过程以及在多智能体系统中的具体应用,涵盖点对点转移、避障处理、状态约束通信拓扑等关键技术环节。研究强调算法的分布式特性,提升系统的可扩展性鲁棒性,适用于多无人机、无人车编队等场景。同时,文档列举了大量相关科研方向代码资源,展示了DMPC在路径规划、协同控制、电力系统、信号处理等多领域的广泛应用。; 适合人群:具备一定自动化、控制理论或机器人学基础的研究生、科研人员及从事智能系统开发的工程技术人员;熟悉Matlab/Simulink仿真环境,对多智能体协同控制、优化算法有一定兴趣或研究需求的人员。; 使用场景及目标:①用于多智能体系统的轨迹生成协同控制研究,如无人机集群、无人驾驶车队等;②作为DMPC算法学习仿真实践的参考资料,帮助理解分布式优化模型预测控制的结合机制;③支撑科研论文复现、毕业设计或项目开发中的算法验证性能对比。; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,重点关注DMPC的优化建模、约束处理信息交互机制;按文档结构逐步学习,同时参考文中提及的路径规划、协同控制等相关案例,加深对分布式控制系统的整体理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值