28、追踪机器学习挑战：准确性阶段与高效步态学习

机器学习在轨迹追踪与步态控制中的应用

lambda

于 2025-09-30 12:24:00 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏： NeurIPS竞赛精华解读文章标签：追踪机器学习准确性阶段高效步态学习

本文链接：https://blog.youkuaiyun.com/lambda/article/details/152640173

NeurIPS竞赛精华解读专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

追踪机器学习挑战：准确性阶段与高效步态学习

1. 追踪机器学习挑战准确性阶段概述

在追踪机器学习挑战的准确性阶段，出现了多种算法和方法。其中，评委深度学习获奖算法采用了循环神经网络架构。该模型输入一组 5 个命中四元组，随后是 5 个空白坐标，最终输出总共 10 个命中位置四元组，最后 5 个用于在探测器中寻找匹配命中。此模型为双堆叠 LSTM，搭配一个密集模型将隐藏表示转换到命中位置四元组空间，能在不预先损失可预测性的情况下加快训练速度。该方法使用 RNN 进行轨迹跟踪，并借助起始套件快速获取一组优质种子。不过，算法性能很大程度上依赖于种子机制，存在较大改进空间，且此算法设计上只能提供包含 10 个命中的轨迹候选。

1.1 组织者青睐的算法：Diogo

Diogo R. Ferreira 是里斯本大学专注于数据科学和核聚变的教授/研究员。他的解决方案虽总体得分不佳（排名第 100），但在大冲击参数轨迹上表现独特出色。该解决方案使用的模式匹配算法也见于实际 LHC 触发实现中，其基于训练数据集包含探测器碰撞期间所有可能观察到的轨迹模式这一假设。此 Python 算法主要有以下两个步骤：
- 路线数据库构建 ：由于轨迹很少共享所穿过模块的有序序列，因此从探测器的唯一模块序列构建路线。路线由模块 ID 序列和模型上命中的预期位置组成（如图 22 所示）。若训练数据集中多条轨迹具有相同模块序列，则根据平均位置进行预测，同时使用训练数据集中提供的命中权重对路线上的命中位置进行平均，以倾向于更高得分。
- 命中匹配 ：在每个模块上至少有一个命中的路线用于构建轨迹候选。若候选命中被多条路线共享，则将该命中分配给与路线预测位置平均距离最小的轨迹候选。

这种模式匹配算法对于靠近束线产生的轨迹表现不佳，可能是初始假设对这类轨迹不成立。因为路线在可能轨迹空间中覆盖了不可忽略的有限体积，路线上轨迹参数密度过高导致模糊性。但对于在次级顶点产生的轨迹效果较好，可能是轨迹参数空间中的密度低得多，使得在模糊路线内的命中关联明确。

2. 经验教训

在排名靠前和获奖的解决方案中，出现受当前带电粒子追踪算法中种子、轨迹跟踪、轨迹选择三阶段方法启发的算法并不意外。不过，这些基线方法的变体对未来追踪算法的发展很有意义。

2.1 准确性驱动步骤

获胜解决方案在每一步对准确性损失的监控，可能是其在竞赛中成功的关键。开发和改进主要以保留几乎所有优质轨迹和命中为导向。尽管挑战的指标不能直接应用于每一步和每次迭代，但参与者能够找到有用且现实的代理指标，帮助他们在不损失最大目标得分的情况下开发算法。

2.2 数据驱动的磁场估计

挑战数据模拟中使用的磁场模型未在数据集描述中提供，目的是简化数据集发布。然而，参与者发现由于磁场不均匀，预测准确性有所损失。所应用的修正以数据驱动方式得出，不仅包含磁场的实际变化，还涉及组成探测器的材料量。由于实际探测器几何形状建模不完善，重建软件中使用的磁场和材料模型只是近似值，可能导致不准确。这种数据驱动的磁场和几何模型测量未来可能催生更好的算法。

2.3 深度学习的计算成本

将深度学习应用于挑战中大量训练数据的团队面临计算资源限制。即便使用通用图形处理单元（GPU），训练模型也需数天时间。而且，此类模型的超参数相空间未被完全扫描以获取最优集。参与者未报告若有更多资源和时间，其提出的解决方案是否会表现更好。不过，无论训练模型和优化超参数集耗时多久，训练好的模型使用起来可能极快，甚至可能比传统方法更快。

2.4 超参数调整

深度学习方法并非唯一需要调整超参数的算法。挑战中许多解决方案由参与者凭借算法知识和直觉手动调整。更系统的方法可能需要更多计算资源来全面评估算法性能。进一步的调整方法可包括使用性能函数的高斯过程回归进行贝叶斯优化，或使用进化算法找到所提方法的最佳运行点。在以单一分数衡量优劣的挑战中，此类超优化相对容易实现（但需更多资源）。然而，在实验软件中的带电粒子重建场景下，可能不存在唯一的追踪衡量标准。多个对科学产出有相互制衡重要性的量都起作用，且科学产出无法直接量化。

2.5 噪声驱动的组合爆炸控制

某解决方案受经典带电粒子追踪算法启发。特别是在轨迹跟踪步骤中，每一步考虑的候选命中数量并非通过预测位置的估计误差（计算成本高）来控制，而是利用轨迹异常值的密度。这种方法可能实现更快速的软件，并精确控制算法复杂度。它可能有助于恢复在探测器轨迹中经历大统计波动的轨迹模式识别效率。当然，增加且受控的树大小需与显著的计算增益相平衡才有益。

以下是 Diogo 算法步骤的 mermaid 流程图：

graph LR
    A[开始] --> B[路线数据库构建]
    B --> C[命中匹配]
    C --> D[结束]

步骤	描述
路线数据库构建	从探测器的唯一模块序列构建路线，考虑模块 ID 序列和命中预期位置，根据平均位置预测，使用命中权重平均位置
命中匹配	用每个模块至少有一个命中的路线构建轨迹候选，若命中共享则分配给平均距离最小的候选

追踪机器学习挑战：准确性阶段与高效步态学习

3. 结论与展望

追踪机器学习挑战的准确性阶段引入了多种方法，其中一些在该领域具有创新性。算法质量很高，在广泛参数范围内达到了 99% 的效率，表明其质量与现有技术相当。由于挑战是竞赛，尽管有活跃的讨论论坛，但排名靠前的参与者之间合作较少。不过，得益于参与者发布的软件，已经开始了结合不同想法开发算法的更深入研究。

从领域角度看，目标是获得高质量且快速的新算法。在第一个准确性阶段，除了对参与者实际可行的要求外，未对执行时间设置激励机制。在赛后调查中，报告的每个事件处理时间在 10 分钟到 1 天之间。吞吐量阶段于 2018 年 10 月至 2019 年 3 月在 Codalab 上启动，撰写本文时仍在进行中。已经有迹象表明，一些参与者能在几秒内获得很高的分数，这是两阶段方法成功的初步迹象。

4. 高效步态学习

4.1 引言

强化学习在游戏和控制系统中展现出巨大潜力，但高维非线性系统的控制问题仍然具有挑战性。例如，使用深度确定性策略梯度（DDPG）等离策略学习方法解决人形控制问题存在困难，DDPG 容易陷入次优解。OpenSim 是一个精确的运动模拟器，但由于其复杂性和高计算成本，在 OpenSim 上进行强化学习是一项重大挑战。

NeurIPS 社区自 2017 年起发布基于 OpenSim 的强化学习竞赛。2018 年竞赛的目标是在肌肉骨骼模型上训练控制器，以跟踪随时间随机切换的目标速度。提交的解决方案根据机器人在 1000 帧内实际速度与目标速度的平方误差总和进行评估。与 2017 年的竞赛相比，2018 年竞赛的环境具有假肢腿和完整的 3D 动力学。

4.2 背景

深度确定性策略梯度 ：在每个时间步 t，智能体从环境接收当前观察 st，并执行由确定性策略 μ(st) 得出的动作 at，该策略由参数 φ 表示。环境返回新的观察 st+1 和奖励 rt。使用 Qμ(st, at) 表示策略 μ 下的价值函数，γ 为衰减因子。使用带参数 θ 的 Qθ 作为最优策略下价值函数 Qμ∗ 的函数逼近器。DDPG 通过最小化时间差分误差 Lθ 来更新策略函数 μφ(at|st) 和动作 - 状态函数 Qθ(st, at)，并相对于策略最大化价值函数：
最小化 Lθ = (rt + γ Qθ′(st+1, μφ′(st+1)) − Qθ(st, at))² 关于 θ
最大化 [Qθ(st, μφ(st))] 关于 φ
φ′ 和 θ′ 分别是参数 φ 和 θ 的延迟副本。DDPG 是一种离策略学习算法，因为其目标策略（μφ′）与行为策略（μφ）不同。

为解决复杂环境中的问题，团队采用了以下方法：
- 深度探索扩展 ：为缓解高维空间中的探索困难，利用深度探索方法并将其扩展到连续控制。
- 课程学习 ：为解决复杂环境中常见的局部最优问题，遵循课程学习范式，设计一系列渐进式任务以提高最终性能。

通过这些方法，团队“Firework”赢得了 NeurIPS 2018: AI for Prosthetics 挑战，比第二名高出 30 多分。

以下是 DDPG 算法流程的 mermaid 流程图：

graph LR
    A[开始] --> B[接收观察 st]
    B --> C[执行动作 at]
    C --> D[环境返回 st+1 和 rt]
    D --> E[更新 Qθ 和 μφ]
    E --> B

步骤	描述
接收观察 st	智能体从环境获取当前状态
执行动作 at	根据策略 μ(st) 执行动作
环境返回 st+1 和 rt	环境给出新状态和奖励
更新 Qθ 和 μφ	最小化 Lθ 并最大化价值函数