10、OpenSHMEM 错误处理与恢复机制解析

最新推荐文章于 2025-10-15 14:06:59 发布

饼干CSS

最新推荐文章于 2025-10-15 14:06:59 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏： OpenSHMEM技术前沿探析文章标签： OpenSHMEM 错误处理恢复机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/j2k3l4/article/details/153510849

OpenSHMEM技术前沿探析专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

OpenSHMEM 错误处理与恢复机制解析

1. 错误报告后的处理

当错误被报告后，与 OpenSHMEM 库的通信可能无法进行。不过，为对称数据对象分配的内存仍可在本地处理元素（PE）中使用，这使应用程序有机会验证数据的正确性、在退出前进行检查点操作，或者继续使用具有弹性的通信库。

2. 错误处理程序的堆叠

用户可以像调用普通 C 函数一样随时调用错误处理程序（包括预定义的错误处理程序）。具体而言，用户定义的错误处理函数可以调用另一个错误处理函数。为了调用当前设置的错误处理程序，用户可以使用 shmem_errhandler_get 获取错误处理程序及其参数，然后直接调用该错误处理程序，或者用自己的错误处理程序替换它，并在替换的错误处理程序中进行链式调用。Fortran 也提供了类似的接口，还增加了调用错误处理函数的接口。

3. 线程安全

尽管 OpenSHMEM 目前没有关于线程安全操作的完整定义，但对于多线程程序中的错误处理程序调用，我们设想其行为如下：每个 PE 只会调用一次错误处理程序。错误处理程序被调用后，PE 中任何线程的阻塞操作都会被打破。并发操作和错误处理程序调用的明显顺序将取决于具体实现。

4. 错误传播

当错误报告给特定的 PE 后，该 PE 可能选择或被迫停止从无错误执行路径进行操作和更新。如果通信模式复杂，故障的发生可能会严重干扰应用程序，仅进行本地错误报告可能无法实现有效的恢复。

下面通过一个示例来说明：

if (0 == rank)
{

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。