高能物理数据库与数据访问的挑战与解决方案
高能物理数据库面临的问题
在高能物理领域,数据库面临着诸多问题。首先是数据维护方面,例如磁带被随意丢弃在办公室角落,这是较为明显的数据维护问题。除此之外,编程语言可能在几年后就会过时,程序执行环境也可能出现问题。不过,最大的问题还是在元数据方面。以 JADE 案例以及 LEP 数据存档的多次尝试来看,需要维护足够关于探测器和实验记录的信息,这样即使数据比特能够被读取,也能有意义地使用。这对数据库领域是一个巨大挑战,因为必须提前精心识别和保存所有必要的元数据,等到相关专家退休或离职就为时已晚。
高能物理实验产生的科学数据,如 LEP 或 LHC 的数据,理应保存以供后代研究。但如果几年后无法对这些数据进行分析,那么实现这一重要目标的可能性就微乎其微,这实际上等同于破坏我们的科学遗产,是需要优先解决的领域。
网格的现状
许多实验,如 BaBar 实验,都面临着运行可靠分布式服务的挑战。对于一些中间件服务,通过负载均衡服务器提供冗余,以避免单点故障,如电源、网络交换机等问题。虽然高可用性数据库技术在理论上已被充分理解,但实施起来既昂贵又复杂。不必要的复杂性,如跨站点服务,可能对提高实际可用性作用不大,甚至可能使其更糟。
网格用户通常更关心比核心网格服务更高层次的应用。一个实验级服务可能由多个特定于实验的服务(其中一些可能包含数据库组件)以及网格服务组合而成。
积极的一面是,网格基本上是一个批处理环境,因此对短期故障具有一定的弹性,甚至可以做到“透明”。但仅列出涉及的基本技术是不够的,需要对关键服务及其重要性进行深入研究,然后通过硬件、中间件、程序和应用的具体实现来达到目标。目前这项