30.分布式事务:本地事务 + RPC 的“隐形炸弹”

分布式事务:本地事务 + RPC 的“隐形炸弹”

只要系统被拆成多个微服务,“分布式事务”就绕不过去。
很多同学只记住了 @Transactional,却忽略了一个关键事实:
它只对本地数据库负责,对远端 RPC 一无所知。
真正的坑,往往就埋在“本地事务里嵌套 RPC 调用”这一行代码里。

一、问题场景:A 调 B,要保证状态一致

典型面试题:

  • 系统 A、系统 B,通过 RPC 相互调用。
  • 有个业务要求:两边的状态必须一致。
  • A 中有一个方法加了 @Transactional
    1. 先通过 RPC 调 B,B 把状态更新为“生效中”。
    2. 根据 B 的返回结果,A 更新自己的本地数据为“生效中”。

问:可能出现什么问题?


二、几个常见的坑

1. 长时间 RPC 拖垮数据库
  • A 在开启本地事务后,发起一个执行时间很长的 RPC。
  • 事务期间,数据库连接一直被占用;
  • 高并发时,很容易把连接池拖到见底,引发雪崩。
2. B 成功,A 回滚:两边状态不一致
  • B 更新成功,状态“生效中”。
  • A 在本地更新时抛异常,事务回滚,A 依然是旧状态。
  • 最终:B 生效,A 未生效,数据不一致。
3. B 实际成功,但 A 认为失败
  • 网络抖动导致 RPC 超时:
    • B 实际已经成功处理;
    • A 认为调用失败,可能回滚本地事务;
    • 两边状态再次不一致。
4. 超时后的“不确定性”
  • 超时发生时,A 无法判断 B 是否执行成功。
  • 单靠本地事务,根本无法解决这种“不确定结果”的问题。

三、本质:@Transactional 只管本地,不管远端

这一类问题的本质:

  • @Transactional 只对本地数据库负责:
    • 能确保 A 自己的多条 SQL 是原子性的;
    • 无法保证包含 RPC 在内的整个调用链是一致的。

想拿 @Transactional 去覆盖远端服务,是思维上的错位


四、主流解法一:本地消息表(最终一致)

1. 思路
  • 把“本地更新”和“对外发送一条消息”放在同一个本地事务中。

  • 事务提交成功后,代表:

    • A 的本地状态已更新;
    • 要通知 B 的“消息”已经可靠地写入消息表。
  • 后台有一个异步任务:

    • 从本地消息表里捞出未发送或发送失败的记录;
    • 不停重试调用 B 的接口,直到成功或超过重试上限。
2. 特点
  • 获得的是最终一致性,而不是强一致。
  • 避免了本地事务直接包含长时间 RPC。
  • 实现简单,常用在中小规模系统中。

五、主流解法二:MQ 事务消息(交给消息中间件协调)

1. 思路

如果系统中已经有 MQ(如 RocketMQ):

  • A 首先发送一条“半消息”到 MQ;
  • 然后在本地开启事务,更新自己的数据库;
  • 本地事务成功后,告知 MQ 提交这条消息为“正式消息”;
  • B 订阅消费这条消息,更新自己的状态。

如果 MQ 一段时间内没收到“提交/回滚”的反馈,它会:

  • 反查 A 的本地事务状态;
  • 决定是提交还是丢弃这条消息。
2. 特点
  • 把“事务协调”的复杂度交给 MQ。
  • 适合对可靠性要求很高、链路较长的分布式系统。

六、主流解法三:同步调用 + 业务补偿(TCC 思路)

1. 思路
  • 执行主业务时,同时设计一条对应的补偿路径(rollback)。
  • 当任何一个环节失败时,通过调用远端的补偿接口,把状态拉回去。
  • 不刻意追求“瞬时强一致”,而是通过补偿达到“最终一致”。
2. 特点
  • 非常考验业务建模能力:
    • 要为每种变更设计清晰的“撤销逻辑”。
  • 通常只在关键链路、金额类核心业务中使用。

七、异步任务失败后的兜底

以本地消息表为例,面试官常追问:

如果异步任务也一直失败怎么办?

可按以下层次回答:

  1. 在消息表中记录重试次数
  2. 每次失败次数 +1;
  3. 超过阈值(如 3 次或 5 次):
    • 标记为“死信”或“失败状态”;
    • 触发告警,由运维或业务方人工干预;
  4. 也可以设计死信队列,专门承接多次失败的消息。

八、没有银弹,只有权衡

  • @Transactional 解决的是单服务内一致性。
  • 分布式场景更多要接受:最终一致性 + 补偿机制
  • 选型要在:
    • 实现复杂度
    • 链路时延
    • 一致性要求
      之间做平衡。

九、面试思路

  1. 先说明问题本质:

    • 本地事务 + RPC 是不可靠的,@Transactional 不等于分布式事务。
  2. 再给出主流方案:

    • 本地消息表 → 最常见且易实现;
    • MQ 事务消息 → 更规范但对基础设施依赖更高。
  3. 然后提到补偿思路:

    • 对强依赖同步链路,可以设计补偿接口落地 TCC。
  4. 最后回答面试官追问:

    • 本地消息表的重试机制、死信队列、人工介入策略。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值