故障场景

MySQL 主从延迟突然增大

查看从库复制状态
```
SHOW SLAVE STATUS\G  
```
- 重点关注字段：
  - Seconds_Behind_Master：主从延迟时间（秒）
  - Slave_IO_Running/Slave_SQL_Running：IO线程/SQL线程是否正常（需均为Yes）
  - Last_Errno/Last_Error：是否存在复制错误（如主键冲突、表结构不一致）
分析主从数据处理能力差异
- 主库负载监控：
  - QPS/TPS是否突增（通过SHOW GLOBAL STATUS LIKE 'Threads_running'）
  - Binlog生成速度（SHOW BINARY LOGS对比前后日志量变化）
- 从库消费能力评估：
  - SQL线程是否为单线程（MySQL 5.7+可开启并行复制，参数slave_parallel_workers）
  - 磁盘IO利用率（是否达80%以上，通过iostat -x）、CPU负载（top查看us+sy占比）

延迟等级	处理手段	执行时效
紧急（>30分钟）	1. 暂停非核心业务写入（主库执行`FLUSH TABLES WITH READ LOCK`） 2. 提升从库规格（RDS控制台选择“计算/内存升级”，5分钟内生效）	10分钟内响应
严重（5-30分钟）	1. 开启从库并行复制（修改`slave_parallel_type=LOGICAL_CLOCK`） 2. 清理从库慢查询（`SHOW PROCESSLIST`kill长事务）	30分钟内闭环
轻度（<5分钟）	1. 优化主库写入性能（拆分大事务、添加索引） 2. 调整从库复制参数（`innodb_read_io_threads=8`提升IO并行度）	按工作日流程处理

修复完成条件
- Seconds_Behind_Master持续30分钟≤10秒
- 从库SQL线程无错误日志（SHOW SLAVE STATUS中Last_Error为空）
- 业务读请求数据一致性校验（如订单创建时间与从库查询结果偏差<1秒）
复盘与优化
- 生成《延迟分析报告》，包含：
  - 故障时间段主库写入峰值（Binlog量对比）
  - 从库资源瓶颈点（如CPU突发性能耗尽）
  - 优化建议（如长期高负载场景采用读写分离架构）
- 定期执行主从延迟演练（模拟主库大事务，测试从库恢复能力）

错误码	含义	处理方案
1062	主键冲突	1. 暂停复制（`STOP SLAVE`） 2. 从库删除冲突数据 3. `START SLAVE`
1872	并行复制线程超时	增加`slave_parallel_workers`参数值（建议≤CPU核心数）
1236	主库binlog已删除	1. 从库基于最新备份恢复 2. 重新搭建主从同步