分布式算法（二）：分布式事务的解决方案——两阶段提交协议

原创已于 2024-12-24 11:10:53 修改 · 1.4k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#分布式

于 2024-12-23 17:28:50 首次发布

微服务与分布式专栏收录该内容

15 篇文章

订阅专栏

两阶段提交协议（2PC）对强一致性的CP架构系统至关重要，它通过确保所有分布式节点在事务处理上达成一致，要么全部成功提交，要么全部回滚，从而维护了全局数据的一致性和完整性，同时提供了可靠的故障恢复机制，尽管可能牺牲一定的系统可用性和性能。这对于需要高度可靠和一致性的应用场景，如金融交易、分布式数据库操作等，具有不可替代的应用价值。

然而，值得注意的是，虽然2PC非常适合强一致性的需求，但它也有一些缺点，特别是在高可用性和性能方面。它依赖于一个中心化的协调者，这可能导致单点故障，并且在分区存在的情况下，可能会阻塞事务，直到分区被修复。此外，2PC可能会导致资源锁定时间过长，影响并发性能。因此，在选择是否使用2PC时，必须权衡这些因素。

一、核心实现原理

1.两种角色

协调者（Coordinator）

协调者是两阶段提交协议（2PC）中的中央控制节点，负责发起事务并管理其生命周期，通过与所有参与者通信来决定事务的最终命运——提交或回滚，同时维护事务状态的日志以确保在故障情况下的正确恢复。

参与者（Participants 或 Cohorts）

参与者是2PC中实际执行事务操作的各个分布式节点或服务，它们根据协调者的指令准备并尝试提交或回滚事务，每个参与者必须能够独立评估自身完成事务的能力，并向协调者反馈准备状态以供全局决策。

2.两个阶段

两阶段提交协议（2PC）分为两个明确的阶段：准备阶段（Phase 1） 和 提交阶段（Phase 2）。每个阶段都有特定的目标和操作，以确保所有参与者在事务处理上达成一致。

准备阶段（Phase 1）

在这里插入图片描述

协调者发起：协调者向所有参与者发送“准备”（PREPARE）请求，询问它们是否准备好提交事务。这个请求通常包含了事务的所有相关信息。
参与者响应：
- 每个接收到“准备”请求的参与者会检查自身的状态，确认是否有足够的资源来完成事务，并尝试锁定这些资源而不真正应用事务变更。
- 如果参与者可以成功地为提交做准备，它将记录一个持久化的日志条目，表明它已经准备好提交，并向协调者回复“是”（YES），也称为“准备就绪”或“投票通过”。
- 如果参与者无法为提交做准备（例如因为缺乏资源或检测到冲突），它将回复“否”（NO），也称为“未准备好”或“投票不通过”。
协调者决策：一旦所有参与者的回应都收到，协调者将根据这些回应做出决定。如果所有的参与者都回复了“是”，则进入提交阶段；如果有任何一个参与者回复了“否”，则整个事务必须被回滚。

提交阶段（Phase 2）

提交或回滚：
- 提交：如果所有参与者都回复了“是”，协调者将发送“提交”（COMMIT）指令给所有参与者。每个参与者接收到该指令后，将正式执行事务并释放之前锁定的资源。然后，参与者会向协调者确认提交已完成。
- 回滚：如果任何一个参与者回复了“否”，或者协调者在等待参与者回应时超时，则协调者将发送“回滚”（ABORT）指令给所有参与者。每个参与者接收到该指令后，将撤销所有与事务相关的更改，并释放任何已锁定的资源。
最终状态：无论是提交还是回滚，一旦所有参与者完成了相应的操作，它们都会向协调者报告最终状态。协调者负责收集这些反馈，并确保事务的状态在所有节点上保持一致。

在这里插入图片描述

这两个阶段的设计目的是为了确保分布式系统中的一致性，即使某些节点出现故障也能保证事务的原子性和一致性。然而，2PC也有其局限性，比如对单点故障敏感、可能导致长时间锁定资源等问题。

二、故障恢复

两阶段提交协议（2PC）需要考虑故障恢复，主要是因为分布式系统中故障是不可避免的，而2PC的目标是在所有参与者之间确保事务的一致性。如果在事务处理过程中出现故障，没有适当的故障恢复机制，可能会导致数据不一致、资源锁定或事务悬而未决等问题。

1.协调者发生故障

当协调者在两阶段提交协议（2PC）中发生故障时，根据故障发生在不同阶段，其恢复过程也会有所不同。

（1）发送 PREPARE 后故障

场景：协调者已经向所有参与者发送了PREPARE请求，并收到了部分或全部参与者的响应（“是”或“否”），但在决定下一步行动之前发生了故障。
恢复过程：
- 引入新的协调者：需要有一个机制来选择一个新的协调者。这可以通过预设的备用协调者或者通过选举产生。
- 状态查询：新协调者会联系所有参与者，询问它们的状态。参与者应保留持久化的日志记录，表明它们是否已经回复了“是”或“否”。
- 决策与执行：
  - 如果所有参与者都回复了“是”，则新协调者可以发出COMMIT指令。
  - 如果有任何一个参与者回复了“否”，则新协调者应发出ROLLBACK指令。
- 同步和确认：新协调者确保所有的参与者都接收到并执行了最终的命令，并收集所有参与者的确认。

（2）给部分参与者发送了 COMMIT/ROLLBACK 后故障

场景：协调者已经开始发送COMMIT或ROLLBACK指令，但只成功地将这些指令发送到了一部分参与者之后就发生了故障。
恢复过程：
- 超时机制：未收到最终指令的参与者会在设定的时间内等待协调者的进一步指示。如果超时，则启动故障恢复流程。
- 参与者自主决策：
  - 对于那些已经收到COMMIT或ROLLBACK指令的参与者，它们将按照收到的指令执行相应的操作。
  - 对于没有收到最终指令的参与者，它们可以尝试与其他参与者通信，了解其他节点的状态。
- 多数派原则：如果有超过一半的参与者接收到了相同的指令（COMMIT或ROLLBACK），那么剩余的参与者可以根据这个多数派的原则做出一致的选择。
- 新协调者介入：如果无法达成多数派共识，可以引入新的协调者来进行全局决策。新协调者通过查询所有参与者的状态，决定事务的命运。

（3）发送了所有命令后故障

新的协调者不需要做任何操作。

2.部分参与者发生故障

当部分参与者在两阶段提交协议（2PC）中发生故障，而协调者未发生故障时，协调者需要采取适当的措施来确保事务的一致性和最终完成。以下是针对两种不同情况的详细故障恢复过程：

1. 故障参与者已完成第一阶段但未完成第二阶段

场景：协调者已经向所有参与者发送了PREPARE请求，并且故障参与者已经回复了“是”或“否”，但在协调者发出COMMIT或ROLLBACK指令之前，该参与者发生了故障。

恢复过程：

超时机制与心跳检测：
- 协调者设置了合理的超时时间，并定期通过心跳检测监控参与者的健康状况。
- 如果协调者在超时时间内没有收到某个参与者的确认响应，则认为该参与者可能发生了故障。
决策与通知其他参与者：
- 协调者根据已收到的其他参与者的响应做出决定：
  - 如果所有其他参与者都回复了“是”，则协调者可以决定继续进行COMMIT操作，并尝试联系故障参与者以确保它也能正确处理事务。
  - 如果有任何一个参与者（包括故障参与者）回复了“否”，则协调者应发出ROLLBACK指令给所有其他参与者，并尝试联系故障参与者以确保它也回滚事务。
故障参与者的恢复：
- 当故障参与者恢复正常后，它可以根据自己持久化的日志记录来了解事务的状态。
- 故障参与者应该主动联系协调者，询问当前事务的状态（COMMIT或ROLLBACK），并根据协调者的指示执行相应的操作。
重试机制：
- 对于未能及时响应的故障参与者，协调者可以通过重试机制不断尝试发送最终指令，直到得到确认。

2. 故障参与者未完成第一阶段

场景：协调者尚未完成向所有参与者发送PREPARE请求，或者故障参与者尚未对PREPARE请求作出响应就发生了故障。

恢复过程：

超时机制与心跳检测：
- 协调者同样使用超时机制和心跳检测来识别哪些参与者未能按时回应PREPARE请求。
补发PREPARE请求：
- 对于那些未能及时响应的参与者，协调者可以重新发送PREPARE请求，给予这些参与者额外的时间来回复。
- 如果故障参与者在一段时间后仍未恢复，协调者可以根据其余参与者的响应状态决定是否继续推进事务。
决策与通知其他参与者：
- 如果大多数参与者（超过半数）回复了“是”，则协调者可以决定继续进行COMMIT操作，并尝试联系故障参与者。
- 如果有超过半数的参与者回复了“否”，或者无法达到多数派共识，则协调者应发出ROLLBACK指令给所有其他参与者，并尝试联系故障参与者以确保它也回滚事务。
故障参与者的恢复：
- 当故障参与者恢复正常后，它应该能够接收到来自协调者的PREPARE请求，并根据自身状态和其他参与者的情况作出正确的响应。
- 故障参与者也可以主动联系协调者，获取最新的事务状态，并根据协调者的指示执行相应的操作。
重试机制：
- 对于未能及时响应的故障参与者，协调者可以通过重试机制不断尝试发送PREPARE请求，直到得到确认。

3.协调者和部分参与者都发生故障

如果出现了这种情况，那么任何单方面的恢复都不能使2PC继续正常工作，因此必须等到发生故障的协调者/参与者恢复过来。后续的故障恢复其实就是前面两种情况的整合。

三、2PC的优缺点

两阶段提交协议（2PC）作为一种经典的分布式事务管理协议，具有确保分布式系统中数据一致性的能力。然而，它也存在一些明显的优缺点。以下是对其优缺点的总结：

优点

强一致性：
- 2PC确保了所有参与者要么都成功提交事务，要么都回滚事务，从而维护了全局的一致性。
简单易实现：
- 相对于其他更复杂的分布式协议，2PC的概念和实现相对简单，易于理解和部署。
可靠性和持久化：
- 通过使用持久化日志，2PC能够提供可靠的故障恢复机制，确保在节点或网络故障后可以继续完成事务。
适用于小规模、稳定环境：
- 在参与者数量有限且网络条件较为稳定的环境中，2PC能有效工作，并保持良好的性能。

缺点

单点故障：
- 协调者是2PC中的关键角色，一旦协调者发生故障，整个事务处理过程可能会被阻塞，直到协调者恢复或选出新的协调者。
资源锁定时间长：
- 在准备阶段，参与者会锁定必要的资源，这可能导致长时间的资源占用，尤其是在协调者故障或网络分区的情况下，进而影响系统的并发性能。
对网络分区敏感：
- 如果网络分区导致部分参与者无法与协调者通信，2PC可能会使这些参与者处于不确定状态，直到分区解决，这可能延长事务的处理时间。
可用性受限：
- 为了保证一致性，2PC可能会牺牲一定的系统可用性。例如，在等待所有参与者响应时，系统可能需要暂停某些操作，直到达成一致。
扩展性差：
- 随着参与者数量的增加，2PC的效率会显著下降，因为每个事务都需要与所有参与者进行两次通信（PREPARE和COMMIT/ROLLBACK），这增加了通信开销。
不适合高吞吐量场景：
- 由于其同步性质，2PC在高并发、高吞吐量的应用场景下表现不佳，因为它要求所有参与者必须在每次事务中达成一致。