本文首发于HPC365官网:HPC365——超算的云桌面
摘要
在通向亿亿次计算的道路上,高性能并行文件系统是一个不可或缺的基础设施,可以使研究工作得以扩展。在全球的超级计算网站中,包括Lustre,BeeGFS和Gluster。以便在一系列环境(特定公共云和学术云)中可扩展地部署和调整每个并行文件系统,以探索用于高性能工作流的混合或纯云解决方案的可行性。这项工作将使这些系统符合一系列存储基准,包括Bonnie,IOzone,IOR和IO-500.
挑战
A.性能
虽然在多个服务器之间分配数据读写以扩展存储性能和带宽的概念是直观的,但各种文件系统设计可以通过其独特的体系结构在不同程度上得到利用。Lustre和BeeGFS通过将元数据和数据操作分离到不同的服务器来扩展,而像Gluster这样的分布式文件系统使用相同的节点,其中元数据和数据操作不分开。这些独特的架构需要设计考虑因素以实现最佳性能。这项工作的可交付成果是对这些考虑因素及其绩效结果或权衡的数据驱动,系统性的探索。
B.再现性
并行文件系统与底层资源无关,无论是裸机还是虚拟化、内部部署或云。通过评估设计考虑因素(例如,元数据与数据服务器的比率,每个服务器的CPU核心,文件条带设置,各个OS内核参数),我们将创建和优化基础架构作为代码实用程序,以自动化和配置存储系统的部署 本研究的目标。已有大型IT部署工具用于此类用途,例如Ansible或Puppet,用于大规模系统的配置管理。 在本实验过程中创建的部署代码将公开提供给科学计算社区。
机会
A.并行文件系统
Lustre,Be