迈向全球化数据访问
在高能物理(HEP)实验的数据中心环境中,提供计算服务的数据中心通常包含计算设施和存储设施。在这种环境下,一个简单的数据分析应用程序通常会打开所需访问的文件,遍历存储的数据结构,进行计算并更新结果,最后以某种方式输出最终结果。
1. 数据访问的关键问题
在数据访问过程中,存在一些关键问题影响着效率。其中,数据访问阶段通常是顺序执行的,这在大多数数据分析应用中很常见。对于基于文件的数据存储方式,这是HEP计算中常用的范式,但同样的性能问题也会影响其他数据访问方法。
一个关键问题是,HEP应用程序的计算阶段通常包含大量与数据存储的交互。即使平均延迟非常短(例如0.1毫秒),但由于交互次数众多(例如10⁸次),总延迟也会变得非常大。这使得数据分析应用程序难以高效地访问远程存储库。
然而,情况并非总是如此。例如,当应用程序不需要读取所打开文件的全部内容时,或者复杂的数据分析应用程序能够预测将要访问的数据块时,如果有合适的数据访问技术支持,应用程序的性能可以提高多达两个数量级,达到与本地访问相当的水平。
2. 读取请求与延迟
在客户端向服务器发出的一系列读取请求中,传输延迟会对请求产生两次影响,分别位于服务器端计算之前和之后。如果延迟是由网络引起的,且存储库不在计算客户端本地,延迟值可能会超过70 - 80毫秒。例如,意大利帕多瓦的一个应用程序向美国加利福尼亚州SLAC的服务器请求数据,每次请求1字节,发出1000个数据请求时,仅延迟就需要等待约160秒。
为了解决这个问题,INFN帕多瓦、SLAC和CERN采用了更复杂的方法。如果能够了解应用程序发出的数据请求模式或完整序列,客户端通信
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



