学术环境下低预算通用 HPC 集群中的 Hadoop 与关系数据库中上下文关联规则的挖掘
1. 引言
在当今时代,数据量呈现出爆炸式增长,这些海量数据若能得到有效利用,将成为宝贵的资源。为了从这些数据中提取有用的知识,高效强大的系统必不可少。Hadoop 框架凭借其 MapReduce 范式,为数据密集型分布式应用的高效实现提供了一种解决方案。与此同时,通用高性能计算(HPC)系统也日益普及,如许多计算中心常见的集群。这些系统通常用于为不同需求的用户群体(如学术研究人员)提供服务,一般是为 CPU 和内存密集型应用而设计。然而,将现有的 HPC 基础设施用于数据密集型应用是一个值得探讨的话题,尤其是在预算有限的学术环境中,同一集群需要满足众多研究人员的不同需求。
2. HPC@polito 集群介绍
HPC@POLITO(www.hpc.polito.it)旨在为学术研究和大学教学提供计算资源和技术支持。为此,该计算中心搭建了一个名为 CASPER(科学并行执行与渲染集群设备)的异构集群,其峰值性能达 1.2 TFLOPS。该集群承载了 25 个项目,相关研究团队还发表了 12 篇论文。
2.1 集群配置
CASPER 是一个标准的多指令流多数据流(MIMD)分布式共享内存 InfiniBand 异构集群,包含 1 个主节点和 9 个计算节点,共有 136 个核心和 632 GB 的主内存。系统由三种不同类型的计算节点组成,这些节点是根据研究团队的需求分阶段添加的。集群正朝着大规模并行、大内存系统发展,节点平均 CPU 速度适中且每个节点核心众多。不过,节点的本地硬盘较小且性能较低,仅用于存储操作系统,实验数据存于中央网络附属存储(N
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



