全球最大机器的数据管理
1. 引言
2007 年底,位于日内瓦的大型强子对撞机(LHC),常被称为全球最大的机器,将开始运行。它的四个探测器旨在收集数据,有望解答关于宇宙的一些基本问题,例如质量的起源。
其中一个探测器——ATLAS 探测器的数据采集系统,将以每秒 200 个事件的速率记录质子 - 质子碰撞事件的信息。每个事件的信息需要 1.6 MB 的存储空间,考虑到机器的运行时间,每年将产生 3.2 PB 的记录数据,此外还有模拟和重新处理的数据。预计 2008 年的计算资源需求为 16.9 PB 的磁带存储、25.4 PB 的磁盘存储和 50.6 MSI2k 的 CPU。
ATLAS 实验使用三个网格在全球范围内存储、复制、模拟和处理数据,分别是 LHC 计算网格(LCG)、开放科学网格(OSG)和北欧网格(NorduGrid)。这里将介绍 ATLAS 实验在北欧网格上使用的当前分布式模拟和数据管理系统的最新经验。连接北欧网格中间件“高级资源连接器”(ARC)的站点地理地图展示了相关网络情况。具备必要的 ATLAS 软件并能够运行 ATLAS 计算任务的站点网络,被称为 ATLAS ARC 网格。
2. 模拟和数据管理系统
ATLAS ARC 网格上的分布式模拟和数据管理系统可分为三个主要部分:
- 生产数据库 :用于定义和跟踪模拟任务,是一个 Oracle 实例,存储作业定义、作业输入位置、作业输出名称、作业估计资源需求、状态等信息。
- 监督 - 执行实例 :
- 是一个 Python 应用程序,由其网格证书在所有 ATLAS ARC
超级会员免费看
订阅专栏 解锁全文
883

被折叠的 条评论
为什么被折叠?



