大型强子对撞机中的粒子轨迹追踪机器学习挑战
1. 引言
TrackML是粒子物理学领域的第三个机器学习挑战。在希格斯玻色子挑战和物理风味挑战取得成功之后,此次挑战旨在解决一个全新且关键的问题:精确追踪欧洲核子研究组织(CERN)大型强子对撞机(LHC)探测器中粒子的轨迹。这对于确保新型粒子探测的质量至关重要。
LHC是一个独特的粒子加速器,它能使质子以前所未有的能量进行碰撞,2012年希格斯玻色子的发现就得益于它,这一发现还获得了2013年诺贝尔物理学奖。计划于2025年进行的高亮度LHC(HL - LHC)升级将使收集的数据变得更加复杂和快速。目前,质子碰撞分析流程的第一步是重建探测器内粒子的3D轨迹,这一问题通常通过基于卡尔曼滤波器的组合优化方法来解决。然而,从测量的3D点重建轨迹(螺旋线)所需的CPU时间预计将比计算资源的增长速度更快,因此需要新的模式识别方法来充分挖掘HL - LHC的发现潜力。
此次挑战的总体目标是探索新方法,以平衡算法质量(良好的轨迹重建)和速度之间的关系。从机器学习的角度来看,该问题可以被视为一个类似聚类的潜在变量问题,需要推断粒子轨迹的“归属”;也可以看作是将轨迹视为时间序列的跟踪问题,或者是将点状轨迹视为连续轨迹噪声版本的模式去噪问题。需要注意的是,一条轨迹上的点在几何上并不接近,它们遵循特定的模式,即大致指向原点的扭曲螺旋弧。
高能物理(HEP)实验已经开始广泛应用机器学习,最初是将其作为最终分析阶段的监督分类工具,现在正探索更多样化的应用。最近将机器学习应用于粒子物理模式识别和跟踪的尝试显示出了巨大的潜力。为期一天、仅限于二维问题的黑客马拉松展示了丰富的方法和待测试的设置。
挑战分为两个阶段:
-
“准确性”阶段
:于2018年5月1日至8月10日在Kaggle平台上进行,使用一个反映模型在找到正确点关联方面准确性的指标来识别最佳算法,该指标基于与真实轨迹关联的点的总体比例。
-
“吞吐量”阶段
:从2019年10月至2019年3月12日在Codalab平台上进行,重点是优化推理速度,基于第一阶段展示的算法集合进行,训练速度不受限制。
由于第二阶段在撰写本文时仍在进行中,因此本文主要关注第一阶段。挑战的成功部分归功于CERN的知名度和问题的吸引力。通过提供入门套件、及时回复在线论坛上的问题(参与者也会互相帮助)以及广泛宣传,激发了参与者的积极性。此外,还为获胜者提供了奖品,并邀请他们访问CERN与高能物理学家讨论结果。设计选择也起到了重要作用,简化问题设置以吸引计算机科学家参与,同时保持问题的现实性,这比希格斯玻色子挑战要困难得多,但总体上取得了成功,许多解决方案,包括获胜方案,都来自计算机科学家。然而,大多数解决方案主要集中在优化上,而不是我们预期的多样化机器学习方法。
鉴于挑战引起的兴趣以及在正式比赛结束后继续研究的意愿,一个非常相似的数据集将永久在CERN开放数据门户和UCI存储库上提供,同时还会提供相关的软件和文档。
2. 挑战设置
2.1 事件与基本配置
一个事件是探测器中一组粒子测量值的集合。从抽象角度看,探测器是记录粒子在事件中穿过探测器时撞击(即“命中”)的设备。每次一对质子碰撞就会产生一个事件,探测器由离散层组成。一个事件大约有$10^5$次命中,对应约$10^4$个粒子。基本配置如下:
- 每个粒子在探测器中心附近(但并非精确在中心)产生。
- 每次命中是笛卡尔坐标(x, y, z)中的3D测量值。每个粒子的命中次数平均为12次,最少为4次,最多为20次。
- 参与者需要将每个粒子产生的命中关联起来形成轨迹,通常应至少恢复90%的真实轨迹。
- 轨迹是略微扭曲的螺旋弧,其轴与z轴平行,大致指向相互作用中心。
在理想情况下:
- 每个粒子在探测器的每一层只会留下一次命中。
- 轨迹是精确的螺旋弧。
- (x, y, z)坐标是精确的。
在这种理想情况下,拟合螺旋线的参数就足以解决问题。但实际上存在一些微妙之处:
- 由于局部几何形状的原因,每个粒子可能在一层中留下多次命中,或者该层可能根本没有记录。
- 螺旋弧通常会有轻微的扭曲。
- 测量值存在非各向同性的不确定性。
挑战的关键在于算法要对所有这些干扰具有鲁棒性,这通过得分定义的指标来强制执行。
2.2 TrackML探测器
挑战使用一个逼真的探测器模型来模拟HL - LHC实验中预期的粒子命中情况。该探测器模型灵感来自ATLAS和CMS升级跟踪器的设计,基于大面积全硅探测器,中心区域为圆柱状几何结构,前端区域为圆盘状几何结构。
坐标系是右手笛卡尔坐标系(x, y, z),全局z轴沿束流方向定义,它是组成探测器的圆柱体和圆盘的对称轴。(x - y)平面称为横向平面,方位角$\varphi \in [-\pi, \pi)$在横向平面中定义,$\varphi = 0$表示x轴。极角$\theta$从z轴测量,范围在$[0, \pi]$内。
为了测量粒子动量,跟踪探测器被嵌入强磁场中。带电粒子在恒定磁场中运动时会遵循螺旋轨迹。磁场通常与束流方向对齐,使粒子在横向平面内弯曲。
探测器分为三个不同的子探测器,它们在空间分辨率和无源材料方面有所不同。最内层是像素探测器,空间分辨率为$50 \mu m \times 50 \mu m$,外层是两个不同的条形探测器,分别具有$80 \mu m \times 1200 \mu m$的短条和$0.12 mm \times 10.8 mm$的长条。每个探测器都包含逼真的模块几何形状,其放置和重叠方式确保了在$\eta = 3$范围内的全覆盖。
以下是探测器子探测器的相关信息表格:
| 子探测器类型 | 空间分辨率 |
| ---- | ---- |
| 像素探测器 | $50 \mu m \times 50 \mu m$ |
| 短条探测器 | $80 \mu m \times 1200 \mu m$ |
| 长条探测器 | $0.12 mm \times 10.8 mm$ |
下面用mermaid流程图展示粒子在磁场中的运动轨迹:
graph LR
A[带电粒子进入磁场] --> B[遵循螺旋轨迹运动]
B --> C[在横向平面内弯曲]
2.3 模拟过程
粒子碰撞的内容使用Pythia 8事件生成器生成。一个产生$t \bar{t}$对的硬量子色动力学(QCD)相互作用被用作信号,并叠加200个软QCD相互作用来模拟HL - LHC预期的堆积条件。相互作用顶点在束流轴上的发光区域内分布,宽度为5.5 mm。
带电粒子通过基于ACTS软件的快速探测器模拟在探测器中传播。使用类似于ATLAS实验中的非均匀磁场,并使用参数模型模拟材料相互作用,如多次散射、能量损失或强子相互作用。只有横向动量高于150 MeV的轨迹才会被传播,同时还包括低效传感器以及来自噪声或低于阈值粒子的额外命中。大多数粒子是在原点附近产生的初级粒子,初级粒子可能通过衰变或与探测器材料相互作用产生次级粒子,这些次级粒子在离原点一定距离处产生。
粒子的各种运动学分布如图所示,初级粒子的分布与$\varphi$角无关,其作为$\eta$函数的分布是平坦的,而次级粒子在$\eta = 0$附近达到峰值。次级粒子的动量低于初级粒子,其产生顶点的横向半径$r_0 = \sqrt{x_0^2 + y_0^2}$对应于模块的位置。
2.4 数据集
粒子物理事件包含多种不同类型的信息,通常以可变长度的嵌套结构表示。为了避免使用专门的工具或格式,这里将数据以扁平化结构提供。由于事件在统计上是独立的,数据按数值事件标识符分别存储。对于训练数据集中的每个事件,以CSV格式提供以下四个文件:
-
Hits文件
:每个条目都有唯一标识符,提供模拟的命中信息,即核心输入的坐标(x, y, z)。
-
Cells文件
:每个条目使参与者能够提取额外信息,如方向信息。
-
Hit truth文件
:每个条目与Hits文件具有相同的唯一标识符,给出真实的命中位置以及产生该命中的粒子。
-
Particles truth文件
:每个条目有唯一ID,代表一个生成的、带电的最终状态粒子。
训练数据集和测试数据集的区别仅在于可用文件的类型。在测试数据集中,只有Hits和Cells文件可用,这与探测器的真实数据情况相同。实际上,所有事件的生成方式完全相同。
参与者需要以CSV格式提供解决方案。由于Kaggle平台的技术要求,必须为测试数据集中的所有事件提供一个单一文件。每个条目必须包含三个值:提供的事件标识符、提供的事件唯一命中标识符以及参与者生成的任意轨迹标识符。重建为属于同一轨迹的命中必须具有相同的轨迹标识符,并且所有事件的所有命中都应只列出一次。
以下是参与者提供解决方案的步骤列表:
1. 读取测试数据集的Hits和Cells文件。
2. 运用算法将命中关联成轨迹。
3. 为每个命中分配一个轨迹标识符。
4. 按照Kaggle平台要求的格式,将事件标识符、命中标识符和轨迹标识符整理到一个CSV文件中。
5. 确保所有命中只列出一次。
大型强子对撞机中的粒子轨迹追踪机器学习挑战
3. 竞赛过程与排名准确性研究
在“准确性”阶段的竞赛中,参与者需要处理一个极具挑战性的任务:给定100,000个点,将它们连接成大约10,000条圆弧,以模拟粒子在高能质子碰撞后的轨迹。竞赛难度颇高,有十几名领先者大幅领先于其他参赛者。
竞赛采用单一的评分标准,该标准被证明在从领域角度选择最佳算法方面既准确又有效。这个评分标准基于与真实轨迹关联的点的总体比例,能够很好地反映模型在找到正确点关联方面的准确性,而这对于大多数物理分析来说是至关重要的。
以下是竞赛过程的简单流程图:
graph LR
A[竞赛开始] --> B[参与者获取测试数据集]
B --> C[参与者运用算法关联点成轨迹]
C --> D[参与者提交CSV格式解决方案]
D --> E[根据评分标准评估]
E --> F[得出排名]
4. 选定算法的性能表现
虽然文中没有详细提及具体选定算法的性能数据,但可以推测不同算法在解决粒子轨迹关联问题上会有不同的表现。一些算法可能在准确性方面表现出色,能够准确地将点关联到真实的轨迹上;而另一些算法可能在处理速度上更具优势,但在准确性上有所欠缺。
不同算法的性能表现可能受到多种因素的影响,例如算法的复杂度、对数据的适应性、对噪声和干扰的鲁棒性等。在实际应用中,需要根据具体的需求和场景来选择合适的算法。
5. 不同技术的简要总结
在这次挑战中,参与者采用了多种不同的技术来解决粒子轨迹关联问题,以下是一些常见的技术总结:
-
聚类算法
:将问题视为类似聚类的潜在变量问题,通过聚类算法将点划分到不同的轨迹中。但由于轨迹上的点在几何上并不接近,传统的聚类算法可能需要进行改进以适应这种特殊情况。
-
时间序列分析
:将轨迹视为时间序列,利用时间序列分析的方法来处理点的关联问题。这种方法可以考虑到粒子运动的连续性和顺序性。
-
模式去噪
:将点状轨迹视为连续轨迹的噪声版本,通过模式去噪的技术来恢复真实的轨迹。这需要对噪声的特性有一定的了解,并选择合适的去噪算法。
以下是不同技术的特点对比表格:
| 技术类型 | 优点 | 缺点 |
| ---- | ---- | ---- |
| 聚类算法 | 可以自动划分点到不同轨迹 | 对轨迹点的几何分布要求高,可能需要改进 |
| 时间序列分析 | 考虑粒子运动连续性 | 对数据的时间顺序要求严格 |
| 模式去噪 | 可以去除噪声干扰 | 需要了解噪声特性,选择合适算法 |
6. 结论与展望
这次粒子轨迹追踪机器学习挑战取得了一定的成功,吸引了众多计算机科学家和物理学家的参与。挑战的成功得益于CERN的知名度、问题的吸引力以及有效的组织和激励措施。
然而,也发现了一些问题。大多数解决方案主要集中在优化上,而没有充分展示多样化的机器学习方法。未来,可以进一步鼓励参与者探索更多新颖的算法和技术,以更好地解决粒子轨迹追踪问题。
随着高亮度LHC的升级,对粒子轨迹追踪算法的要求将越来越高。不仅需要提高算法的准确性,还需要优化推理速度,以适应数据量的增加和处理速度的要求。
此外,永久开放的数据集为后续的研究提供了良好的基础。研究人员可以继续在这个数据集上进行实验和探索,不断改进和创新粒子轨迹追踪算法,为高能物理实验的发展做出贡献。
相信在未来,通过不断的研究和实践,粒子轨迹追踪技术将取得更大的突破,为高能物理领域的研究提供更强大的支持。
LHC粒子轨迹追踪机器学习挑战
超级会员免费看
97

被折叠的 条评论
为什么被折叠?



