高能物理中的并行计算与知识产权法律要点
1. PROOF系统介绍
1.1 PROOF主要特性
PROOF旨在尽可能在数据所在位置进行处理,仅将分析结果传回,这些结果通常比数据本身小很多,从而最大程度减少数据访问开销,这对于高能物理中常见的I/O受限分析尤为重要。其主要设计目标如下:
- 透明性 :分布式系统被视为本地ROOT会话的扩展,具有相同的语法和脚本。
- 可扩展性 :有效利用可用CPU,增加CPU数量可相应提升性能。
- 适应性 :能够适应异构资源(包括CPU类型和负载)。
PROOF系统采用“拉取”式工作负载管理,提高了效率,并将架构扩展到地理上分离的机器集群。它具有灵活的多层架构,主要组件包括客户端会话、主服务器和工作服务器。此外,PROOF支持在地理上分离的集群(网格)中运行,通过允许主服务器形成层次结构,超级主服务器作为系统的入口点,其他主服务器协调各自集群上工作节点的活动。主服务器负责分配工作,采用拉取架构,工作节点准备好后会主动请求更多工作,这样更快的工作节点会被分配更多数据进行处理,自然实现了负载均衡。主服务器还负责合并从工作节点收集的输出,使客户端收到的输出对象与本地处理时相同。
从PIAF得到的一个重要经验是,推送架构的扩展性不佳。在PIAF中,主服务器将工作推送给工作节点,如果某个工作节点因其他任务出现问题或变慢,会延迟整个查询的完成。而PROOF采用拉取架构,使系统对工作节点的变化更具弹性。
1.2 数据包分发器
系统的核心是运行在主进程中的