并行性能分析工具与计算网格中的自动调优
1. 高性能计算面临的挑战与工具需求
先进的高端计算系统规模庞大且复杂,这给运行在其上的应用代码优化带来了难题。为提高应用效率并挖掘其潜力,需要强大的工具来收集代码性能的相关数据,并找出性能问题的根源。有一个小型研讨会聚焦于收集、分析和展示高端计算应用执行性能数据的新方法和工具。
2. 计算网格的背景与应用场景
随着互联网的发展,信息共享和服务可用性增强,如今普通计算机具备了过去大型机的计算能力。计算机集群等新系统变得更为常见,不同管理域的集群相互连接形成了计算网格,以解决资源共享问题。在计算网格中,复杂应用可在多个集群上分布执行,应用控制可借助高级调度器(如 Condor - G 或社区调度框架 CSF),进程提交可使用 Globus 工具包,以满足安全和资源定位要求,且能在特定调度环境(如 Condor 或 OpenPBS)下的集群中执行。
网格资源(如处理节点)的常见用途是通过并行化减少应用执行时间。用户可描述应用所需资源的特征,网格系统层将应用执行导向能满足期望的节点。网格信息服务会呈现不同网格资源的属性,元调度器利用这些属性为应用选择和提供所需资源。应用提交由网格系统层控制,用户可与元调度器交互,以找到合适的可用资源集。
在机器层(即 Foster 所说的 Fabric 层),应用执行由批处理队列系统控制。应用可选择单个集群以避免通信开销,也可分布在多个集群上,但可能面临高延迟消息传递通信问题,且每次执行可能获得不同的资源。因此,为在这种环境中实现应用调优,需要确定应用正在使用哪些资源的机制。
3. MATE 环境简介
研究人员开发了一个监控、
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



