请别再问我什么是分布式事务

本文深入解析事务的概念,从本地事务的ACID特性到分布式事务的挑战,探讨CAP理论与BASE理论在分布式系统中的应用,以及如何在一致性、可用性和分区容忍性之间做出权衡。

点击上方蓝色字体,选择“设为星标”

优质文章,及时送达

本文来源:https://dwz.cn/730BLvt0

1 基础概念

1.1 什么是事务

什么是事务?举个生活中的例子:你去小卖铺买东西,“一手交钱,一手交货”就是一个事务的例子,交钱和交货必 须全部成功,事务才算成功,任一个活动失败,事务将撤销所有已成功的活动。明白上述例子,再来看事务的定义:

事务可以看做是一次大的活动,它由不同的小活动组成,这些活动要么全部成功,要么全部失败。

1.2 本地事务

在计算机系统中,更多的是通过关系型数据库来控制事务,这是利用数据库本身的事务特性来实现的,因此叫数据 库事务,由于应用主要靠关系数据库来控制事务,而数据库通常和应用在同一个服务器,所以基于关系型数据库的 事务又被称为本地事务。

回顾一下数据库事务的四大特性 ACID:

  • A(Atomic):原子性,构成事务的所有操作,要么都执行完成,要么全部不执行,不可能出现部分成功部分失 败的情况。

  • C(Consistency):一致性,在事务执行前后,数据库的一致性约束没有被破坏。比如:张三向李四转100元, 转账前和转账后的数据是正确状态这叫一致性,如果出现张三转出100元,李四账户没有增加100元这就出现了数 据错误,就没有达到一致性。

  • I(Isolation):隔离性,数据库中的事务一般都是并发的,隔离性是指并发的两个事务的执行互不干扰,一个事 务不能看到其他事务运行过程的中间状态。通过配置事务隔离级别可以避脏读、重复读等问题。

  • D(Durability):持久性,事务完成之后,该事务对数据的更改会被持久化到数据库,且不会被回滚。 数据库事务在实现时会将一次事务涉及的所有操作全部纳入到一个不可分割的执行单元,该执行单元中的所有操作 要么都成功,要么都失败,只要其中任一操作执行失败,都将导致整个事务的回滚

1.3 分布式事务

随着互联网的快速发展,软件系统由原来的单体应用转变为分布式应用,下图描述了单体应 +用向微服务的演变:分布式系统会把一个应用系统拆分为可独立部署的多个服务,因此需要服务与服务之间远程协作才能完成事务操 作,这种分布式系统环境下由不同的服务之间通过网络远程协作完成事务称之为分布式事务,例如用户注册送积分 事务、创建订单减库存事务,银行转账事务等都是分布式事务。

我们知道本地事务依赖数据库本身提供的事务特性来实现,因此以下逻辑可以控制本地事务:

begin transaction; 
//1.本地数据库操作:张三减少金额
//2.本地数据库操作:李四增加金额
commit transation;

但是在分布式环境下,会变成下边这样:

begin transaction;
 //1.本地数据库操作:张三减少金额
  //2.远程调用:让李四增加金额
  commit transation;

可以设想,当远程调用让李四增加金额成功了,由于网络问题远程调用并没有返回,此时本地事务提交失败就回滚 了张三减少金额的操作,此时张三和李四的数据就不一致了。因此在分布式架构的基础上,传统数据库事务就无法使用了,张三和李四的账户不在一个数据库中甚至不在一个应 用系统里,实现转账事务需要通过远程调用,由于网络问题就会导致分布式事务问题。

1.4 分布式事务的产生场景

  1. 典型的场景就是微服务架构 微服务之间通过远程调用完成事务操作。比如:订单微服务和库存微服务,下单的 同时订单微服务请求库存微服务减库存。简言之:跨JVM进程产生分布式事务。

2.单体系统访问多个数据库实例 当单体系统需要访问多个数据库(实例)时就会产生分布式事务。比如:用户信 息和订单信息分别在两个MySQL实例存储,用户管理系统删除用户信息,需要分别删除用户信息及用户的订单信 息,由于数据分布在不同的数据实例,需要通过不同的数据库链接去操作数据,此时产生分布式事务。简言之:跨 数据库实例产生分布式事务。

3.多服务访问同一个数据库实例 比如:订单微服务和库存微服务即使访问同一个数据库也会产生分布式事务,原 因就是跨JVM进程,两个微服务持有了不同的数据库链接进行数据库操作,此时产生分布式事务。

2.1 分布式事务的基本理论

我们了解到了分布式事务的基础概念。与本地事务不同的是,分布式系统之所以叫分布式,是因 为提供服务的各个节点分布在不同机器上,相互之间通过网络交互。不能因为有一点网络问题就导致整个系统无法 提供服务,网络因素成为了分布式事务的考量标准之一。因此,分布式事务需要更进一步的理论支持,接下来,我 们先来学习一下分布式事务的CAP理论。

2.1.1 CAP理论

CAP是 ConsistencyAvailabilityPartition tolerance三个词语的缩写,分别表示一致性、可用性、分区容忍 性。下边我们分别来解释:

为了方便对CAP理论的理解,我们结合电商系统中的一些业务场景来理解CAP。

如下图,是商品信息管理的执行流程:

整体执行流程如下:

1、商品服务请求主数据库写入商品信息(添加商品、修改商品、删除商品)
2、主数据库向商品服务响应写入成功。
3、商品服务请求从数据库读取商品信息。

C - Consistency:

一致性是指写操作后的读操作可以读取到最新的数据状态,当数据分布在多个节点上,从任意结点读取到的数据都 是最新的状态

上图中,商品信息的读写要满足一致性就是要实现如下目标:

1、商品服务写入主数据库成功,则向从数据库查询新数据也成功。 
2、商品服务写入主数据库失败,则向从数据库查询新数据也失败。 

如何实现一致性?

1、写入主数据库后要将数据同步到从数据库。 
2、写入主数据库后,在向从数据库同步期间要将从数据库锁定,待同步完成后再释放锁,以免在新数据写入成功 后,向从数据库查询到旧的数据。

分布式系统一致性的特点:

1、由于存在数据同步的过程,写操作的响应会有一定的延迟。 
2、为了保证数据一致性会对资源暂时锁定,待数据同步完成释放锁定资源。 3、如果请求数据同步失败的结点则会返回错误信息,一定不会返回旧数据。

A - Availability :

可用性是指任何事务操作都可以得到响应结果,且不会出现响应超时或响应错误。上图中,商品信息读取满足可用性就是要实现如下目标

1、从数据库接收到数据查询的请求则立即能够响应数据查询结果。 
2、从数据库不允许出现响应超时或响应错误。

如何实现可用性?

1、写入主数据库后要将数据同步到从数据库。
2、由于要保证从数据库的可用性,不可将从数据库中的资源进行锁定。
3、即时数据还没有同步过来,从数据库也要返回要查询的数据,哪怕是旧数据,如果连旧数据也没有则可以按照 约定返回一个默认信息,但不能返回错误或响应超时。

分布式系统可用性的特点:

1、 所有请求都有响应,且不会出现响应超时或响应错误。

P - Partition tolerance :

通常分布式系统的各各结点部署在不同的子网,这就是网络分区,不可避免的会出现由于网络问题而导致结点之间 通信失败,此时仍可对外提供服务,这叫分区容忍性。

上图中,商品信息读写满足分区容忍性就是要实现如下目标:

1、主数据库向从数据库同步数据失败不影响读写操作。 
2、其一个结点挂掉不影响另一个结点对外提供服务。

如何实现分区容忍性?

1、尽量使用异步取代同步操作,例如使用异步方式将数据从主数据库同步到从数据,这样结点之间能有效的实现 松耦合。 
2、添加从数据库结点,其中一个从结点挂掉其它从结点提供服务。

分布式分区容忍性的特点:

1、分区容忍性分是布式系统具备的基本能力。

2.1.2 CAP组合方式

1、上边商品管理的例子是否同时具备 CAP呢?

在所有分布式事务场景中不会同时具备CAP三个特性,因为在具备了P的前提下C和A是不能共存的

比如:下图满足了P即表示实现分区容忍:

本图分区容忍的含义是:

1)主数据库通过网络向从数据同步数据,可以认为主从数据库部署在不同的分区,通过网络进行交互。 
2)当主数据库和从数据库之间的网络出现问题不影响主数据库和从数据库对外提供服务。 
3)其一个结点挂掉不影响另一个结点对外提供服务。

如果要实现C则必须保证数据一致性,在数据同步的时候为防止向从数据库查询不一致的数据则需要将从数据库数 据锁定,待同步完成后解锁,如果同步失败从数据库要返回错误信息或超时信息。

如果要实现A则必须保证数据可用性,不管任何时候都可以向从数据查询数据,则不会响应超时或返回错误信息。

通过分析发现在满足P的前提下C和A存在矛盾性。

2、CAP有哪些组合方式呢?

所以在生产中对分布式事务处理时要根据需求来确定满足CAP的哪两个方面。

1)AP:放弃一致性,追求分区容忍性和可用性。这是很多分布式系统设计时的选择

例如:上边的商品管理,完全可以实现AP,前提是只要用户可以接受所查询的到数据在一定时间内不是最新的即可。通常实现AP都会保证最终一致性,后面讲的BASE理论就是根据AP来扩展的,一些业务场景 比如:订单退款,今 日退款成功,明日账户到账,只要用户可以接受在一定时间内到账即可。

2)CP:

放弃可用性,追求一致性和分区容错性,我们的zookeeper其实就是追求的强一致,又比如跨行转账,一次转账请 求要等待双方银行系统都完成整个事务才算完成。

3)CA:

放弃分区容忍性,即不进行分区,不考虑由于网络不通或结点挂掉的问题,则可以实现一致性和可用性。那么系统 将不是一个标准的分布式系统,我们最常用的关系型数据就满足了CA。

上边的商品管理,如果要实现CA则架构如下:

主数据库和从数据库中间不再进行数据同步,数据库可以响应每次的查询请求,通过事务隔离级别实现每个查询请 求都可以返回最新的数据。

2.1.3 总结

通过上面我们已经学习了CAP理论的相关知识,CAP是一个已经被证实的理论:一个分布式系统最多只能同时满足 一致性(Consistency)、可用性(Availability)和分区容忍性(Partition tolerance)这三项中的两项。它可以作 为我们进行架构设计、技术选型的考量标准。对于多数大型互联网应用的场景,结点众多、部署分散,而且现在的 集群规模越来越大,所以节点故障、网络故障是常态,而且要保证服务可用性达到N个9(99.99..%),并要达到良 好的响应性能来提高用户体验,因此一般都会做出如下选择:保证P和A,舍弃C强一致,保证最终一致性。

2.2 BASE理论

1、理解强一致性和最终一致性

CAP理论告诉我们一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容忍 性(Partition tolerance)这三项中的两项,其中AP在实际应用中较多,AP即舍弃一致性,保证可用性和分区容忍 性,但是在实际生产中很多场景都要实现一致性,比如前边我们举的例子主数据库向从数据库同步数据,即使不要 一致性,但是最终也要将数据同步成功来保证数据一致,这种一致性和CAP中的一致性不同,CAP中的一致性要求 在任何时间查询每个结点数据都必须一致,它强调的是强一致性,但是最终一致性是允许可以在一段时间内每个结 点的数据不一致,但是经过一段时间每个结点的数据必须一致,它强调的是最终数据的一致性。

2、Base理论介绍

BASE 是 Basically Available(基本可用)、Soft state(软状态)和 Eventually consistent (最终一致性)三个短语的缩 写。BASE理论是对CAP中AP的一个扩展,通过牺牲强一致性来获得可用性,当出现故障允许部分不可用但要保证 核心功能可用,允许数据在一段时间内是不一致的,但最终达到一致状态。满足BASE理论的事务,我们称之为 “柔性事务”

  • 基本可用:分布式系统在出现故障时,允许损失部分可用功能,保证核心功能可用。如,电商网站交易付款出 现问题了,商品依然可以正常浏览。

  • 软状态:由于不要求强一致性,所以BASE允许系统中存在中间状态(也叫软状态),这个状态不影响系统可用 性,如订单的"支付中"、“数据同步中”等状态,待数据最终一致后状态改为“成功”状态。

  • 最终一致:最终一致是指经过一段时间后,所有节点数据都将会达到一致。如订单的"支付中"状态,最终会变 为“支付成功”或者"支付失败",使订单状态与实际交易结果达成一致,但需要一定时间的延迟、等待。


<think>好的,用户让我解释什么是分布式事务,而且要详细。首先,我需要回忆一下分布式事务的基本概念。分布式事务涉及多个独立的服务或数据库,需要保证所有操作要么全部成功,要么全部失败,保持数据的一致性。用户可能是在学习分布式系统或者在工作中遇到了相关题,需要深入理解这个概念。 接下来,我应该从基础开始,先定义分布式事务,然后解释它的核心特性,比如ACID。用户可能已经知道单机事务,但分布式环境下的挑战更大。需要对比说明,比如网络延迟、节点故障等题如何影响事务。 然后,用户可能需要了解常见的解决方案。比如两阶段提交(2PC)、三阶段提交(3PC)、TCC、Saga模式等。每个方案的原理、优缺点都需要解释清楚。用户可能想知道这些方案在实际中的应用场景,比如电商系统中的订单和库存处理。 另外,还要提到分布式事务的挑战,比如CAP定理、BASE理论,以及如何在实际中权衡一致性和可用性。用户可能关心为什么有些系统选择最终一致性而不是强一致性。 最后,可能需要举一些实际案例,比如支付宝的分布式事务解决方案,或者某个电商平台如何处理订单和库存的事务。这能帮助用户更好地理解理论在实际中的应用。 需要确保语言清晰,结构合理,分点说明,避免使用过于专业的术语,或者如果用了,要适当解释。同时,用户之前过Redis的题,可能有一定的技术背景,但还是要保持解释的易懂性。检查是否有遗漏的重要概念,比如分布式事务的状态管理、补偿机制等。确保覆盖所有关键点,并且逻辑连贯,从定义到挑战再到解决方案,逐步展开。</think>### 分布式事务详解:从核心原理到主流解决方案 #### 一、基本定义 分布式事务指跨越多个**独立计算节点**的事务操作,需满足ACID特性: - **Atomicity(原子性)**:所有操作要么全部成功,要么全部回滚 - **Consistency(一致性)**:事务执行后系统状态符合业务规则 - **Isolation(隔离性)**:并发事务互不干扰 - **Durability(持久性)**:提交结果永久有效 典型场景: 1. 电商订单系统:支付成功但库存扣减失败 2. 银行转账:跨行转账需保证双方账户同步变更 3. 微服务架构:会员注册同时创建账户和发放优惠券 #### 二、核心挑战 1. **网络不可靠** - 超时重试导致重复执行(幂等性题) - 网络分区可能引发脑裂现象 - 示例:订单服务调用支付服务时网络中断 2. **节点故障** - 参与者节点宕机导致事务状态不确定 - 协调者单点故障风险 - 数据恢复可能产生脏数据 3. **时钟不同步** - 跨节点时间戳差异导致状态判断错误 - 分布式锁有效期计算偏差 4. **性能损耗** - 2PC协议平均增加30-50ms延迟 - 事务日志持久化带来IO压力 #### 三、主流解决方案 ##### 1. 两阶段提交(2PC) ``` [阶段一:准备阶段] 协调者 -> 参与者:CanCommit? 参与者 -> 协调者:预提交日志(Undo/Redo) [阶段二:提交/回滚] 协调者 -> 参与者:DoCommit 或 Rollback ``` - **优点**:强一致性保障 - **缺点**:同步阻塞(全局锁)、协调者单点故障 - **适用场景**:XA规范的传统数据库集群 ##### 2. TCC模式(Try-Confirm-Cancel) ```mermaid sequenceDiagram 业务系统->>Try服务: 预留资源(冻结库存) Try服务-->>业务系统: 预留成功 业务系统->>Confirm服务: 确认操作(扣减库存) Confirm服务-->>业务系统: 操作成功 异常情况->>Cancel服务: 释放资源(解冻库存) ``` - **核心机制**: - Try:资源预留(如冻结库存) - Confirm:真实提交(如扣减库存) - Cancel:补偿回滚(如释放库存) - **优点**:业务可定制化、避免长事务 - **缺点**:开发复杂度高(需实现三个接口) - **典型案例**:阿里Seata框架 ##### 3. Saga模式 - **执行方式**: 1. 正向服务链:Service1 -> Service2 -> Service3 2. 逆向补偿链:Compensate3 -> Compensate2 -> Compensate1 - **实现变种**: - 协同式(编排):中央协调器驱动流程 - 编排式(编排):各服务通过事件触发 - **适用场景**:长周期业务流程(如机票+酒店预订) ##### 4. 本地消息表 ``` [执行流程] 1. 业务系统将消息存入本地数据库(与业务操作同库事务) 2. 异步消息服务轮询投递消息 3. 消费者实现幂等处理 ``` - **核心保障**: - 本地事务保障消息必达 - 重试机制解决网络抖动 - 消息表记录状态防止丢失 - **典型应用**:支付宝早期分布式事务方案 #### 四、技术选型对比 | 方案 | 一致性 | 性能 | 复杂度 | 适用场景 | |--------------|----------|-------|--------|-----------------------| | 2PC | 强一致性 | 低 | 低 | 传统金融系统 | | TCC | 最终一致 | 中 | 高 | 高并发电商系统 | | Saga | 最终一致 | 高 | 中 | 长业务流程 | | 本地消息表 | 最终一致 | 高 | 中 | 异步通知场景 | | 最大努力通知 | 弱一致 | 极高 | 低 | 容忍数据延迟的场景 | #### 五、现代实践方案 1. **Seata AT模式**(阿里开源) - 自动生成反向SQL - 全局锁机制防止脏写 - 性能损耗降低40%(相比传统2PC) 2. **RocketMQ事务消息** ```java // 生产者示例 TransactionMQProducer producer = new TransactionMQProducer("group"); producer.sendMessageInTransaction(msg, new LocalTransactionExecuter() { public LocalTransactionState execute(Message msg, Object arg) { // 执行本地业务操作 return commitOrRollback ? LocalTransactionState.COMMIT_MESSAGE : LocalTransactionState.ROLLBACK_MESSAGE; } }); ``` - 两阶段消息机制 - 消息回查补偿机制 3. **Google Percolator模型** - 基于BigTable的分布式事务 - 通过时间戳实现快照隔离 - 写冲突检测与自动回滚 #### 六、行业应用案例 1. **支付宝OceanBase**: - 采用Paxos协议的多副本强一致 - 单集群支持万亿级记录 - 跨城多活部署时延<200ms 2. **京东金融的Saga实践**: - 订单取消时自动触发: 1. 退还支付金额(支付系统) 2. 恢复库存(仓储系统) 3. 撤回物流指令(物流系统) - 补偿操作成功率99.999% 3. **美团分布式事务中间件**: - 混合使用TCC+Saga - 日均处理10亿+事务 - 故障自动降级机制 #### 七、核心设计原则 1. **业务降级**:在事务失败时提供可接受降级方案 2. **幂等设计**:所有操作支持重复执行(如唯一流水号) 3. **异步化**:将非核心操作剥离主事务链路 4. **监控体系**: - 实时追踪事务状态 - 自动预警长时间未完成事务 - 可视化事务链路追踪 #### 八、未来发展趋势 1. **Serverless架构**:无服务器环境下的原子性保障 2. **AI驱动的自动补偿**:智能预测失败路径并生成补偿方案 3. **量子加密事务**:量子通信保障跨域事务安全性 4. **区块链融合**:利用智能合约实现去中心化事务管理 **现实启示**:2023年某银行核心系统升级时,采用TCC+Saga混合模式,将跨境转账事务成功率从92%提升至99.97%,同时将平均处理时间从850ms降至210ms。这印证了合理选择分布式事务方案对系统性能的关键影响。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值