具有改进最坏情况保证的在线检查点机制
1. 引言
在长时间运行的计算过程中,检查点机制是一种重要的容错策略。其核心目标是在出现故障时,能够以最小的代价恢复计算。这里所说的代价,就是从最近的检查点重新计算到期望时间点所需的时间。我们从最坏情况的角度出发,致力于让最长间隔的长度始终保持较小。随着时间的推移,间隔长度必然会增加,因此一个公平的比较基准是在时间 $T$ 时,将计算过程最优划分为等长间隔后的最长间隔长度 $T/(k + 1)$。
我们定义,使用 $k$ 个检查点的检查点算法的最大距离差异(简称差异)为 $q$,意味着在任意时间 $T$,该算法放置检查点的方式要保证最长间隔的长度不超过 $qT/(k + 1)$。用 $q^*(k)$ 表示使用 $k$ 个检查点的所有检查点算法中的最小差异。
2. 符号与预备知识
- 检查点操作 :在长时间运行的计算中,我们可以选择在当前时间 $T$ 保存状态到检查点,或者删除之前设置的检查点。假设存储最多能同时保存 $k$ 个检查点,并且在时间 $t = 0$ 和当前时间存在隐式检查点。同时,我们不考虑设置或维护检查点的成本,所以可以认为只有在放置新检查点时才会删除旧检查点。
- 算法描述 :检查点放置算法可以用两个无限序列来描述。一是放置新检查点的时间点,即一个非递减的实数序列 $t_1 \leq t_2 \leq \cdots$,且 $\lim_{i\rightarrow\infty}t_i = \infty$;二是当安装新检查点时,描述删除哪些旧检查点的规则,即一个单射函数 $d : [k + 1\cdots
改进最坏情况的在线检查点算法
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



