9、集群与集群网格中的进程迁移

集群与集群网格中的进程迁移

1. 引言

在分布式系统中,进程迁移是指将运行在一个资源上的进程重新部署到另一个资源上,且迁移过程不会导致进程执行出现任何变化。为实现这一功能,需要特殊的技术来保存目标进程的整个内存映像并进行重建,这种技术被称为检查点机制。

在检查点过程中,工具会暂停进程的执行,收集恢复所需的所有内部状态信息,然后终止进程。之后,会创建一个新进程,并恢复所有收集到的信息,使进程能够继续执行而无需任何修改。

这种迁移机制可用于多种场景,如负载均衡、利用空闲资源(高吞吐量计算)、容错执行或基于资源需求的迁移。使用作业调度器时,上述大多数情况只能通过外部检查点机制来支持,因为作业调度器很少能解决并行作业的自动检查点问题。例如,Condor 系统只能保证顺序作业的自动检查点,仅为 Master/Worker PVM 作业的容错执行提供用户级支持。

构建大型集群网格时,应使网格能够有效地调度并行应用程序,否则这些应用程序可能会因执行环境的动态行为而失败。除了执行并行程序外,网格最终用户的另一个重要方面是创建网格应用程序。遗憾的是,目前尚无被广泛接受的用于高级并行应用程序开发的图形工具。P - GRADE 网格编程环境正是为解决这一问题而开发的,它可以根据用户需求从相同的图形符号生成 PVM 或 MPI 代码。

本文将展示如何通过工具将外部检查点机制插入调度器,而无需对调度器进行任何更改,使全国性的大型集群网格能够在完全支持自动检查点的情况下执行并行应用程序。文章详细介绍了两种工作模式:在友好(集群)Condor 池之间的迁移和在非友好(独立)Condor 池之间的迁移,这两种模式与匈牙利集群网格项目的不同布局相关。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值