千万级订单的分布式事务一致性问题_分布式订单库存优惠券的一致性-优快云博客

本文链接：https://blog.youkuaiyun.com/qq1344691727/article/details/146078322

技术选型：
- 采用 RocketMQ事务消息（半消息机制）替代2PC，降低锁冲突。
- 引入 本地事务表 + 异步补偿任务 兜底。
方案实现：
- 事务消息流程：
  1. 订单服务发送半消息到RocketMQ。
  2. 执行本地事务（订单状态更新为“支付中”）。
  3. 提交消息，触发库存服务消费扣减库存。
  4. 若库存扣减失败，RocketMQ回查订单状态，触发补偿退款。
- 补偿机制设计：
  - 本地事务表：记录事务状态（进行中/已完成），补偿任务扫描超时事务。
  - 幂等控制：通过订单号+版本号避免重复扣减。
性能优化：
- 消息批量提交（每批100条），减少网络开销。
- 库存服务缓存热点商品库存，合并扣减请求。

拆分策略（领域驱动设计）
- 领域划分：通过事件风暴（Event Storming）识别核心领域（用户、订单、商品、支付）。
- 服务定义：
  - 用户服务：用户注册、登录、鉴权。
  - 订单服务：下单、状态流转、查询。
  - 商品服务：SKU管理、库存扣减。
- 防腐层（ACL）：在单体与微服务间封装适配层，逐步替换旧逻辑。
数据迁移方案
- 双写阶段：
  1. 新服务与单体同时写新旧数据库。
  2. 通过Binlog监听旧库变更，同步到新库（延迟<1s）。
- 增量同步：
  - 使用 Canal 解析MySQL Binlog，写入Kafka。
  - 新服务消费Kafka消息，补全数据差异。
- 校验切换：
  - 对比新旧库关键数据（如订单总金额、用户数），差异<0.01%后切流量。
灰度发布机制
- 流量染色：通过网关标记请求（如HTTP Header X-Gray: v2），路由到新服务。
- 渐进式发布：
  1. 内部员工（10%）→ 特定用户（1%）→ 全量用户。
  2. 每阶段观察24小时，监控错误率、RT、数据库负载。
- 回滚方案：
  - 5分钟内可切换回单体，通过Nginx反向代理保留旧入口。