集群与集群网格中的进程迁移
1. 引言
在分布式系统中,进程迁移是指将运行在一个资源上的进程重新部署到另一个资源上,且迁移过程不会导致进程执行出现任何变化。为实现这一功能,需要特殊的技术来保存目标进程的整个内存映像并进行重建,这种技术被称为检查点机制。
在检查点过程中,工具会暂停进程的执行,收集恢复所需的所有内部状态信息,然后终止进程。之后,会创建一个新进程,并恢复所有收集到的信息,使进程能够继续执行而无需任何修改。
这种迁移机制可用于多种场景,如负载均衡、利用空闲资源(高吞吐量计算)、容错执行或基于资源需求的迁移。使用作业调度器时,上述大多数情况只能通过外部检查点机制来支持,因为作业调度器很少能解决并行作业的自动检查点问题。例如,Condor 系统只能保证顺序作业的自动检查点,仅为 Master/Worker PVM 作业的容错执行提供用户级支持。
构建大型集群网格时,应使网格能够有效地调度并行应用程序,否则这些应用程序可能会因执行环境的动态行为而失败。除了执行并行程序外,网格最终用户的另一个重要方面是创建网格应用程序。遗憾的是,目前尚无被广泛接受的用于高级并行应用程序开发的图形工具。P - GRADE 网格编程环境正是为解决这一问题而开发的,它可以根据用户需求从相同的图形符号生成 PVM 或 MPI 代码。
本文将展示如何通过工具将外部检查点机制插入调度器,而无需对调度器进行任何更改,使全国性的大型集群网格能够在完全支持自动检查点的情况下执行并行应用程序。文章详细介绍了两种工作模式:在友好(集群)Condor 池之间的迁移和在非友好(独立)Condor 池之间的迁移,这两种模式与匈牙利集群网格项目的不同布局相关。
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



