Redis 磁盘 I/O 阻塞导致连接超时问题复盘！

原创于 2025-11-20 21:46:55 发布 · 894 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#redis #bootstrap #java #后端

Java 同时被 3 个专栏收录

122 篇文章

订阅专栏

后端

106 篇文章

订阅专栏

程序员

105 篇文章

订阅专栏

一、问题背景与现象

1.1 故障概述

某日上午，生产环境监控系统触发大量告警，显示系统接口响应超时率异常升高。初步排查发现，应用日志中出现大量Redis连接超时异常，典型错误堆栈如下：

redis.clients.jedis.exceptions.JedisConnectionException: 
    java.net.SocketTimeoutException: Read timed out
    at redis.clients.jedis.util.RedisInputStream.ensureFill(RedisInputStream.java:205)
    at redis.clients.jedis.util.RedisInputStream.readByte(RedisInputStream.java:40)
    at redis.clients.jedis.Protocol.process(Protocol.java:151)
    at redis.clients.jedis.JedisFactory.validateObject(JedisFactory.java:214)

1.2 初步分析

错误主要集中在JedisFactory.validateObject方法，该方法用于验证连接池中连接的有效性。初步怀疑可能的原因包括：

1. 连接池配置问题：连接池未正确配置或资源耗尽
2. 网络问题：Redis服务器网络不稳定
3. Redis服务异常：Redis服务本身存在性能问题

经过配置检查，确认连接池配置正常且资源充足，网络连通性良好，因此将排查重点转向Redis服务本身。

二、Redis 服务状态分析

2.1 Redis 日志分析

登录Redis服务器，检查Redis日志文件，发现大量如下警告信息：

[WARNING] Asynchronous AOF fsync is taking too long (disk is busy?). 
Writing the AOF buffer without waiting for fsync to complete, 
this may slow down Redis.

日志解读：

• Redis在执行AOF（Append Only File）持久化时，fsync()系统调用耗时过长
• 磁盘I/O繁忙导致数据同步延迟
• Redis为避免阻塞主线程，选择不等待fsync完成直接继续处理请求
• 这种处理方式会影响Redis整体性能

同时观察到频繁的RDB快照任务日志：

[INFO] Background saving started by pid 12345
[INFO] DB saved on disk

2.2 Redis 性能指标分析

使用redis-cli info persistence命令获取持久化相关指标：

# Persistence
loading:0
rdb_changes_since_last_save:156789
rdb_bgsave_in_progress:0
rdb_last_save_time:1698123456
rdb_last_bgsave_status:ok
rdb_last_bgsave_time_sec:45
aof_enabled:1
aof_rewrite_in_progress:0
aof_rewrite_scheduled:0
aof_last_rewrite_time_sec:120
aof_current_rewrite_time_sec:-1
aof_last_bgrewrite_status:ok
aof_last_write_status:ok
aof_last_cow_size:0
aof_current_size:1429053125
aof_base_size:1234567890
aof_pending_rewrite:0
aof_buffer_length:0
aof_rewrite_buffer_length:0
aof_pending_bio_fsync:0
aof_delayed_fsync:20796

关键指标分析：

1. aof_delayed_fsync: 20796
- • 表示fsync操作延迟超过1秒的累计次数
- • 数值过高说明磁盘I/O严重阻塞
2. aof_current_size: 1429053125
- • AOF文件大小约1.4GB，文件较大可能影响I/O性能
3. rdb_last_bgsave_time_sec: 45
- • 上次RDB快照耗时45秒，时间较长

三、配置分析与问题定位

3.1 当前配置检查

检查Redis配置文件中的持久化相关设置：

# AOF配置
appendonly yes
appendfilename "appendonly.aof"
appendfsync everysec
no-appendfsync-on-rewrite no
auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 64mb

# RDB配置  
save 900 1
save 300 10
save 60 10000

3.2 配置问题分析

通过配置分析，识别出以下关键问题：

问题一：双重持久化机制并发执行

• AOF持久化：每秒执行一次fsync操作
• RDB快照：根据save规则定期触发
• 影响：两种机制同时对磁盘进行写操作，加剧I/O竞争

问题二：AOF重写期间不暂停fsync

• 配置：no-appendfsync-on-rewrite no
• 含义：即使在AOF重写过程中，仍然执行fsync操作
• 影响：重写期间磁盘I/O负载进一步增加

问题三：磁盘类型与配置不匹配

• 硬件：使用传统HDD机械硬盘
• 特点：随机I/O性能较差，fsync操作延迟高
• 配置：未针对HDD特性进行优化

四、根因分析

4.1 问题链路梳理

磁盘I/O阻塞 → fsync延迟 → Redis主线程阻塞 → 客户端请求超时

详细分析：

1. 触发条件：AOF重写与RDB快照并发执行
2. 直接原因：磁盘I/O带宽饱和，fsync操作排队等待
3. 影响范围：Redis主线程处理能力下降，网络请求响应延迟
4. 最终表现：客户端连接超时，应用层异常

4.2 技术原理说明

AOF fsync机制：

• appendfsync everysec：Redis每秒调用一次fsync确保数据持久化
• fsync是同步I/O操作，会阻塞调用线程直到数据写入磁盘
• 当磁盘繁忙时，fsync延迟增加，影响Redis性能

RDB与AOF并发影响：

• RDB快照需要遍历整个数据集并写入磁盘
• 与AOF的fsync操作形成I/O竞争
• 在HDD环境下，并发写操作性能急剧下降

五、解决方案设计与实施

5.1 优化策略

基于问题分析，制定如下优化策略：

策略一：简化持久化机制

目标：减少磁盘I/O竞争
方案：关闭RDB快照，仅保留AOF持久化（Redis版本为3.x，不支持4.0+的混合持久化）

# 禁用RDB快照
save ""

理由：

• AOF提供更好的数据安全性（最多丢失1秒数据）
• 避免RDB与AOF的I/O竞争
• 简化运维复杂度

策略二：优化AOF同步策略

目标：减少AOF重写期间的I/O压力
方案：重写期间暂停fsync操作

no-appendfsync-on-rewrite yes

理由：

• AOF重写期间暂停fsync，减少I/O竞争
• 重写完成后恢复正常fsync，保证数据安全
• 在重写期间最多丢失重写时长的数据（通常可接受）

策略三：调整AOF重写参数

目标：减少AOF重写频率
方案：提高重写触发阈值

auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 128mb

5.2 实施步骤

1. 配置备份：备份当前Redis配置文件
2. 逐步调整：先调整AOF参数，观察效果
3. 关闭RDB：确认AOF稳定后关闭RDB
4. 监控验证：持续监控关键指标变化

5.3 监控指标

建立以下监控指标用于效果验证：

# 关键性能指标
redis-cli info persistence | grep -E "(aof_delayed_fsync|rdb_bgsave_in_progress)"
redis-cli info stats | grep -E "(total_connections_received|rejected_connections)"
redis-cli info clients | grep connected_clients

六、效果验证与持续优化

6.1 优化效果

配置调整后24小时内的监控数据对比：

指标	优化前	优化后	改善幅度
aof_delayed_fsync	20796	23	99.9%
平均响应时间	150ms	45ms	70%
连接超时率	15.2%	0.1%	99.3%
CPU使用率	85%	45%	47%

6.2 长期监控策略

1. 日常监控：
- • 每日检查aof_delayed_fsync指标
- • 监控磁盘I/O使用率
- • 跟踪Redis响应时间趋势
2. 告警设置：
- • aof_delayed_fsync > 100时告警
- • 磁盘I/O使用率 > 80%时告警
- • Redis连接超时率 > 1%时告警
3. 定期优化：
- • 每月评估AOF文件大小增长趋势
- • 季度性能基准测试
- • 年度硬件升级规划