生命科学探索-HPC并行文件系统解决方案

本文介绍了转化医学中HPC的重要性,指出存储与算力的失衡问题,推荐了StarGFS和StarNAS作为高性能存储解决方案。StarGFS通过聚合吞吐、小文件处理技术、元数据管理等实现高性能并行存储,而StarNAS提供灵活的二级存储,具有高可靠性、高并发性能和丰富的企业级功能。

一、HPC:转化医学的技术保障

    生命科学的进步让人类能够更好地借助科学手段从基础组层面进行分析来指导患者的诊疗工作。相比完成病理分析及少量分子检测后即可实施手术或化疗的传统癌症治疗方案,更加先进的转化医学需要对患者的整个基因组进行分析,以指导药企及临床医生进行更有针对性的药物及治疗方案研究,从而为患者提供更为精准、更加有效的诊疗。转化医学中心工作涉及面广,包含组学技术、生信分析、基础医学研究和药物开发等各个方面。生物信息学研究是转化医学研究的基石,它会涉及对蛋白质、DNA和RNA等生物分子的研究。

    从上述可见,转化医学与数据处理和分析息息相关,包含了生物信息的获取、加工、储存、分配、分析、解释等方方面面。而涉及的数据量庞大:每个文件大小可能达上百GB,例如,仅单个人类全基因组测序分析涉及的数据就可能高达870GB。

    如此体量的数据,就让数据处理速度变得更为关键,而且中心招募的患者通常病情都比较危急,需要以尽可能快的速度基于患者生信数据分析结果给出针对性的创新疗法。

    从医学中心的很多工作来看,都是“与死神赛跑”的过程,而且其加速的过程,或者说效率的提升,都与承载生物信息学研究的IT平台,尤其是强大的高性能计算(HPC)平台密不可分。所以构建一个集存、传、算、用为一体的的定制化平台,能够为转化医学实践提供了坚实可靠的技术基础。

二、超算HPC需要更强存储

    因为算力提升的速度快到令人难以置信,反而让如今的HPC系统开始普遍面临“失衡”的问题,即其计算,与其存储和网络的性能拉开了非常大的差距。任何一个HPC平台的规划都是一个系统性工程,它在体系结构设计、高速互联网络、并行文件系统等任何方面的欠缺或不足,都可能拖累平台的整体性能。如果算力爆棚但存储系统性能不行,就很可能让高算力空转,无法充分释放其价值。

    这种“失衡”,如今在计算和存储间的表现尤为明显——在算法和算力已取得显著提升的今天,不论是机械硬盘,还是固态盘在读写速度和带宽上都已远远跟不上算力的需求,而距离算力单元更近、性能较强且担负热数据承载重任的内存子系统,又很难扩展其容量。

    这可能就是HPC平台算力与存储性能失衡的根因,它会引发“存储墙”或“数据墙”问题,使得算力单元与内存及存储之间就像隔着一堵墙,使其无法得到数据的高效供应,或影响数据高并发访问时的效率。这种传统内存-存储在架构和性能上的瓶颈,会在业务和应用层面造成算力投资的浪费,影响相关应用负载或项目的效率。

三、看StarGFS满足超算存储需求

    通量测序仪的通量飞跃式发展,在数据存储上的需求一直都是水涨船高。最关键的是要进行数据分析,CPU的计算速度很快,但大量时间用在了数据加载上。因此,中间层的存储系统就显得非常重要。

    整个HPC平台需要构建一套更加高性能的存储系统,来更为从容地应对其面临的“存储墙”问题,这就包括要让存储跟上海量数据高速处理的要求、要满足不同科研和临床团队高效并行访问海量生信数据的要求,以及要持续容纳庞大、复杂、多维且不断增长的数据等等。

    推荐采用二级存储模式——面向高性能存储需求的并行文件系统StarGFS、面向二级归档的存储系统S

1 某某汽车高性能计算管理平台系统需求 5 1.1 业务需求分析: 5 2 某某汽车 HPC/CAE云计算中心建设目标、策略及步骤 7 3.1 建设目标与策略 7 3.2 建设步骤 8 3 面向高性能计算中心的资源管理、作业调度系统方案 10 3.1 基于应用的场景分析 10 3.1.1 终端用户通过Compute Manager,提交Fluent批处理计算作业 10 3.1.2 终端用户通过Display Manager,提交需要图形节点支持的图形交互程序 13 3.1.3 终端用户通过Compute Manager,在线查看CAE计算结果中的动画 14 3.1.4 终端用户通过Portal启动其他第三方的虚拟桌面,如Ctrix 15 3.2 某某汽车技术中心 HPC云计算平台管理场景 17 3.2.1 HPC云计算平台管理维护 17 3.2.2 HPC云计算平台软、硬利用情况监控、统计分析 18 4 澳汰尔PBS Works产品介绍 20 4.1 系统逻辑图 20 4.2 系统物理架构图 22 4.4 PBS Professional产品介绍 25 4.4.1 整合计算资源、方便用户使用 25 4.4.2 可靠性、可用性、可维护性(RAS) 26 4.4.3 贯彻企业服务公约管理模式 29 4.4.4 优化计算资源的使用 29 4.4.5 计算资源管理功能 30 4.4.6 作业调度功能 32 4.4.7 Hooks功能 34 4.4.8 网格计算 35 4.4.9 安全认证 35 4.5 PAS(PBS 应用服务) 37 4.6 Compute Manager 40 4.6.1 三员管理 41 4.7 Display Manager 42 4.7.1 Display Manager系统架构 44 4.7.2 Display Manager使用体验 45 4.8 PBS Works定制功能 48 4.8.1 菜单布局:通常将布局分为三个模块:计算管理器、集群状态、管理员工具。如果有其他的模块,我们可以方便地集成在这个框架内(awpf)。菜单模块支持用户访问控制。 48 4.8.2 集群状态监控:统计所有计算节点的运行状态、节点类型、应用程序、物理内存、实际使用内存、内存使用率、节点利用率等信息。磁盘信息和实际CPU利用率,通过数字的颜色来反应使用程度:0%<X<30%(绿色),30%<X<50%(蓝色),50%<X<80%(橙色),80%<X>在线设置或修改节点上绑定的applications 50 4.8.5 管理员工具>>用户统计:用户名称,作业总数,运行作业个数,排队作业个数,申请cpu核数,使用cpu核数,排队cpu核数等信息。申请cpu总资源比,通过数字的颜色来反应使用程度:0%<X<30%(绿色),30%<X<50%(蓝色),50%<X<80%(橙色),80%<X>作业管理:统计作业号、作业名称、用户、软、节点数、核数、状态、开始时间、优先级等信息。当作业排队状态时,允许修改作业的优先级。另外管理员也可以删除任意作业。 51 4.8.7 管理员工具>>监控作业排队原因 51 4.8.8 管理员工具>>一周作业统计: 统计当天到过去一周内所累积的运行和排队作业个数。 51 4.8.9 管理员工具>>求解器使用情况统计:统计每个求解器提交的作业总数,在运行的作业,请求的cpu,排队cpu,使用cpu等信息。 52 4.8.10 管理员工具>>磁盘统计:通过WEB页面随时了解本地磁盘的使用情况。使用百分率,通过数字的颜色来反应使用程度:0%<X<30%(绿色),30%<X<50%(蓝色),50%<X<80%(橙色),80%<X>项目管理项:管理员可以以项目为单位,设定项目编号、项目名称、项目的开始和结束时间,项目组人员和项目的优先级。当有紧急的项目,管理员可以把项目的优先级提高,可以把相应的用户加到项目组中,以此提高项目组成员的作业优先级。用户在Web Portal页面提交作业可以选择项目名称,且只能选择自己所属项目的项目名称。 53 4.8.12 管理员工具>>作业委托管理: 统计当前用户自己所提交的作业总数,包含:作业号,作业名称,具体用户,使用的软,使用节点数,作业状态等信息,用户可以把自己的一部分作业或所有作业委托给其他用户. 53 4.8.13 管理员工具>> CPU资源份额调整: 统计所有队列下每个用户的软份额限制,硬份额限制(软限制>整体HPC计算资源实时使用统计: 统计当前所有高性能机器集群的计算资源数目,运行状况,存储等使用情况。 54 4.8.15 管理员工具>> WEB版FTP大文上传: 招标书中明确要求提供基于网页版的FTP上传工具,方便上传大文。 55 4.8.16 portal用户密码校验: 为了安全保密,当用户在登陆portal的时候,连续5此输入密码错误,系统会冻结用户。直到一段时间后,方可再次登陆。 55 4.9 报表工具PBS Analytics介绍 56 4.9.1 Analytics架构 56 4.9.2 Analytics功能说明 57 4.9.3 Analytics实际案例分析 57 4.10 SAO解决方案 59 4.10.1 SAO架构 60 5 PBS支持仿真软 61 5.1 CAE领域中支持软分类及特点 61 5.2 CAE领域中支持软及介绍 61 5.3 CFD领域中支持软及介绍 63 5.4 其他领域及自研软 64 6 和其他作业调度系统的比较优势 65 6.1 Top100超级计算中心占有率对比 65 6.2 Display Manager让用户的仿真整个过程从工作站到了云端 65 6.3 针对大规模计算中心之功能特性 67 6.4 领域知识对比(有能力帮助HPC中心建立围绕计算的业务能力) 68 7 成功案例 68 7.1 汽车行业用户列表 68 7.2 成功案例-泛亚汽车(通用设计中心) 69 7.3 PBS在中国实施的大规模计算案例 71 7.4 PBS在全球实施的大规模计算案例 72 8 平台架构与软硬配置建议 72 8.1 硬平台选型常见误区 72 8.2 cpu架构的选择 73 8.3 计算网络的选择 76 8.4 存储系统的选择 79 8.5 GPU的选择 80 8.6 节点类型的选择 87 8.7 操作系统的选择 87 8.8 并行系统的选择 88 8.9 PBS Professional的数据流控制 89 8.10 推荐配置 90 9 硬常见测试 92 9.1 性能峰值能力测试点 92 9.2 测试压力估算 92 9.2.1 估算结果 92 9.2.1.1. 性能峰值能力测试估算 92 9.3 测试完成准则 93 9.4 测试风险 93 9.5 测试策略 93 9.6 测试用例详细 93 9.6.1 术语 93 9.6.2 性能测试用例描述 94 9.6.2.1. 机群性能测试描述 94 10 Altair介绍 96
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值