工业地震处理应用中的容错技术与增量检查点方案
1. 工业地震处理应用概述
在工业地震处理领域,有一个重要的应用目标是确定地下岩石各层的属性和位置,以此来识别可能存在油气藏的地质构造。其中,地球物理深度偏移地震测量是创建地下岩层精确地质图像的标准数据处理技术之一。地表产生的冲击波会根据岩石类型和模式以不同速度传播,遇到新地层时会以不同角度反射和折射。地震检波器在地表记录的波能量变化会在空间上重新定位到地下事件发生的位置。
这里采用的是逆时偏移(RTM)方法来求解波传播方程,从震源正向传播,从接收器反向传播。RTM算法会分析一个三维域空间,该空间会在可用处理器之间进行划分,每个核心对应一个进程。主循环的每次迭代都会计算域中每个点的能量,空间上达到10阶,时间上达到2阶。由于三维空间中某一点的解不仅取决于该点之前的能量值,还取决于三个维度上相邻点的值,因此在每个循环结束时,不同进程中数据点的能量值会通过消息进行交换。
这种MPI应用即使在拥有数百个处理核心的集群上也可能需要数月的计算时间,所以采取措施保护其免受故障影响是很有必要的。
2. 容错技术
2.1 MPI应用的容错现状
MPI应用对故障的恢复能力较差,标准只给开发者提供了两个选择:要么中止执行,要么将控制权返回给应用,但无法保证新的通信能够正常进行。不过,有几种方法可以解决这个问题,以下是一些方法的总结:
| 实现方式 | 粒度 | 故障检测方式 | 故障通知方式 | 状态保存技术 | 恢复方式 |
| — | — | — | — | — | — |
| MPI - FT | 节点 | 集中式 | 通过消息 | 消息日志(ML)