分布式系统中的检查点与日志回滚恢复技术解析
1. CIC 协议基础
在分布式系统中,为了确保系统在故障发生时能够有效恢复,检查点和日志回滚恢复技术至关重要。CIC(Consistent Global Checkpointing)协议是其中的关键部分,其核心思想是基于接收方判断过去的通信和检查点模式是否会导致无用检查点的产生,若存在这种可能,则强制进行检查点操作以打破这些模式。这一思想通过 Z - path 和 Z - cycle 的概念被形式化。
-
Z - path(之字形路径) :是连接两个检查点的特殊消息序列。设 $x$ 表示 Lamport 的先发生关系,$c_{i,x}$ 表示进程 $P_i$ 的第 $x$ 个检查点。两个检查点 $c_{i,x}$ 和 $c_{j,y}$ 之间存在 Z - path 的条件为:
- 条件一:$x < y$ 且 $i = j$;
- 条件二:存在消息序列 $[m_0, m_1, \ldots, m_n]$($n \geq 0$),满足:
- $c_{i,x} \prec \text{send}_i(m_0)$;
- 对于 $0 \leq l < n$,要么 $\text{deliver} k(m_l)$ 和 $\text{send}_k(m {l + 1})$ 在同一检查点区间内,要么 $\text{deliver} k(m_l) \prec \text{send}_k(m {l + 1})$;
超级会员免费看
订阅专栏 解锁全文
1622

被折叠的 条评论
为什么被折叠?



