Redis监控与运维：确保Redis服务稳定高效运行的策略

原创于 2025-06-24 22:58:18 发布 · 690 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#redis #分布式 #数据库

Redis 专栏收录该内容

21 篇文章

订阅专栏

📌 核心速览：高效的Redis监控与运维是保证Redis服务稳定性和性能的关键。本文详细介绍Redis的监控工具、常用命令、问题排查和最佳实践，帮助开发者和运维人员构建全面的Redis监控体系，及时发现并解决潜在问题，确保Redis服务的高可用性和高性能。

一、Redis-cli监控命令

Redis提供了丰富的命令行工具用于监控和诊断Redis服务器状态。

1. INFO命令

INFO命令是Redis监控的基础，它提供了服务器的详细信息：

# 获取所有信息
redis-cli INFO

# 获取特定部分信息
redis-cli INFO server
redis-cli INFO clients
redis-cli INFO memory
redis-cli INFO stats
redis-cli INFO replication
redis-cli INFO cpu
redis-cli INFO commandstats
redis-cli INFO cluster
redis-cli INFO keyspace

重要指标解读：

指标	描述	关注点
used_memory	Redis分配的内存总量	内存使用趋势
used_memory_rss	操作系统分配给Redis的内存	内存碎片率
mem_fragmentation_ratio	内存碎片比率	>1.5可能需要优化
connected_clients	客户端连接数	是否接近maxclients
blocked_clients	阻塞的客户端数量	阻塞操作是否过多
total_commands_processed	处理的命令总数	命令处理速率
instantaneous_ops_per_sec	每秒执行的命令数	服务器负载
keyspace_hits	键查找命中次数	缓存命中率
keyspace_misses	键查找未命中次数	缓存命中率
latest_fork_usec	最近一次fork操作耗时	持久化性能

2. 客户端监控

# 查看客户端连接列表
redis-cli CLIENT LIST

# 获取客户端数量
redis-cli CLIENT LIST | wc -l

# 按客户端地址统计连接数
redis-cli CLIENT LIST | grep -v "addr=" | awk '{print $2}' | sort | uniq -c | sort -rn

# 杀死指定客户端
redis-cli CLIENT KILL addr:port

# 设置客户端连接超时时间
redis-cli CONFIG SET timeout 300

3. 慢查询日志

慢查询日志用于记录执行时间超过指定阈值的命令：

# 获取慢查询日志配置
redis-cli CONFIG GET slowlog-*

# 设置慢查询阈值(微秒)
redis-cli CONFIG SET slowlog-log-slower-than 10000

# 设置慢查询日志长度
redis-cli CONFIG SET slowlog-max-len 128

# 查看慢查询日志
redis-cli SLOWLOG GET [n]

# 获取慢查询日志长度
redis-cli SLOWLOG LEN

# 重置慢查询日志
redis-cli SLOWLOG RESET

4. 实时监控命令

# 实时监控Redis命令
redis-cli MONITOR

# 测试Redis延迟
redis-cli --latency

# 持续测试Redis延迟
redis-cli --latency-history

# 测试延迟分布
redis-cli --latency-dist

# 大键扫描
redis-cli --bigkeys

# 内存扫描
redis-cli MEMORY DOCTOR

5. 统计与分析

# 获取键的内存使用情况
redis-cli MEMORY USAGE key

# 获取键的调试信息
redis-cli DEBUG OBJECT key

# 获取键的过期时间
redis-cli TTL key

# 获取数据库统计信息
redis-cli INFO keyspace

# 获取命令执行统计
redis-cli INFO commandstats

二、Redis-stat工具使用

Redis-stat是一个简单易用的Redis监控工具，提供了命令行和Web界面两种方式查看Redis状态。

1. 安装Redis-stat

# 使用Ruby Gem安装
gem install redis-stat

# 或者使用Docker
docker run --rm -it -p 63790:63790 insready/redis-stat --server

2. 基本使用

# 监控单个Redis实例，每5秒刷新一次
redis-stat 127.0.0.1:6379 5

# 监控多个Redis实例
redis-stat 127.0.0.1:6379 127.0.0.1:6380 5

# 指定监控指标
redis-stat 127.0.0.1:6379 5 --verbose

# 启动Web服务器
redis-stat 127.0.0.1:6379 5 --server=8080

# 导出CSV格式
redis-stat 127.0.0.1:6379 5 --csv=/path/to/output.csv

3. 监控指标

Redis-stat提供的主要监控指标包括：

连接数(connected_clients)
阻塞连接数(blocked_clients)
内存使用(used_memory_human)
内存碎片率(mem_fragmentation_ratio)
每秒处理命令数(instantaneous_ops_per_sec)
命中率(hit_rate)
键过期率(expired_keys)
键驱逐率(evicted_keys)
每秒网络输入/输出(total_net_input_bytes, total_net_output_bytes)

三、Prometheus + Grafana监控Redis

Prometheus和Grafana是目前流行的监控解决方案，可以为Redis提供强大的监控和可视化能力。

1. 安装Redis Exporter

Redis Exporter是Prometheus的一个导出器，用于收集Redis指标：

# 下载Redis Exporter
wget https://github.com/oliver006/redis_exporter/releases/download/v1.x.x/redis_exporter-v1.x.x.linux-amd64.tar.gz

# 解压
tar xzf redis_exporter-v1.x.x.linux-amd64.tar.gz

# 运行Redis Exporter
./redis_exporter -redis.addr redis://localhost:6379 -redis.password "your-password"

或者使用Docker：

docker run -d --name redis_exporter -p 9121:9121 oliver006/redis_exporter --redis.addr=redis://redis-host:6379 --redis.password="your-password"

2. 配置Prometheus

在Prometheus配置文件(prometheus.yml)中添加Redis Exporter：

scrape_configs:
  - job_name: 'redis'
    static_configs:
      - targets: ['localhost:9121']
    metrics_path: /metrics

3. 配置Grafana

添加Prometheus数据源
导入Redis Dashboard模板（例如ID: 763, 11835, 12776）

4. 关键监控指标

通过Prometheus + Grafana监控的关键指标：

性能指标：
- 每秒命令数(redis_commands_processed_total)
- 命令执行延迟(redis_commands_duration_seconds)
- 连接数(redis_connected_clients)
内存指标：
- 内存使用量(redis_memory_used_bytes)
- 内存碎片率(redis_memory_fragmentation_ratio)
- 内存RSS(redis_memory_rss_bytes)
键指标：
- 键总数(redis_db_keys)
- 过期键数(redis_expired_keys_total)
- 驱逐键数(redis_evicted_keys_total)
复制指标：
- 主从复制延迟(redis_replication_delay)
- 复制状态(redis_replication_state)
网络指标：
- 输入字节数(redis_net_input_bytes_total)
- 输出字节数(redis_net_output_bytes_total)
- 拒绝连接数(redis_rejected_connections_total)

5. 告警配置

在Prometheus中配置告警规则：

groups:
- name: redis_alerts
  rules:
  - alert: RedisDown
    expr: redis_up == 0
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "Redis instance down"
      description: "Redis instance {{ $labels.instance }} is down"

  - alert: RedisHighMemoryUsage
    expr: redis_memory_used_bytes / redis_memory_max_bytes * 100 > 85
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Redis high memory usage"
      description: "Redis instance {{ $labels.instance }} memory usage is {{ $value }}%"

  - alert: RedisHighConnectionCount
    expr: redis_connected_clients > 1000
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Redis high connection count"
      description: "Redis instance {{ $labels.instance }} has {{ $value }} connections"

四、Redis常见问题排查与解决

1. 内存问题

问题：内存使用过高

排查方法：

# 查看内存使用情况
redis-cli INFO memory

# 查找大键
redis-cli --bigkeys

# 使用MEMORY DOCTOR命令
redis-cli MEMORY DOCTOR

# 分析键的内存使用
redis-cli MEMORY USAGE key

解决方案：

设置合理的maxmemory和淘汰策略
拆分大键，使用更高效的数据结构
设置合理的过期时间
定期清理不必要的数据
考虑使用Redis集群分担负载

问题：内存碎片率过高

排查方法：

# 查看内存碎片率
redis-cli INFO memory | grep mem_fragmentation_ratio

解决方案：

Redis 4.0+可以启用内存碎片整理：
```
CONFIG SET activedefrag yes
```

调整碎片整理参数：

CONFIG SET active-defrag-ignore-bytes 100mb
CONFIG SET active-defrag-threshold-lower 10
CONFIG SET active-defrag-threshold-upper 100

如果碎片率极高，可以考虑重启Redis实例

2. 性能问题

问题：Redis响应变慢

排查方法：

# 检查延迟
redis-cli --latency

# 查看慢查询日志
redis-cli SLOWLOG GET 10

# 检查命令统计
redis-cli INFO commandstats

# 检查客户端状态
redis-cli CLIENT LIST

解决方案：

避免使用O(N)复杂度的命令，如KEYS, HGETALL等
使用SCAN系列命令代替KEYS
优化Lua脚本，减少复杂度
使用管道(Pipeline)减少网络往返
增加连接池大小
考虑使用Redis集群分散负载

问题：持久化导致性能抖动

排查方法：

# 检查RDB保存状态
redis-cli INFO persistence

# 检查AOF重写状态
redis-cli INFO persistence | grep aof_

解决方案：

调整RDB保存频率
使用单独的实例进行持久化
配置合理的AOF重写阈值
使用混合持久化(Redis 4.0+)
使用SSD存储提高I/O性能
确保系统有足够的内存避免交换

3. 连接问题

问题：连接数过多

排查方法：

# 查看当前连接数
redis-cli INFO clients | grep connected_clients

# 查看连接详情
redis-cli CLIENT LIST

# 按IP地址统计连接数
redis-cli CLIENT LIST | awk '{print $2}' | sort | uniq -c | sort -rn

解决方案：

检查客户端是否正确关闭连接
优化连接池配置
增加maxclients限制
设置合理的timeout值自动关闭空闲连接
使用CLIENT KILL命令关闭不必要的连接

问题：连接被拒绝

排查方法：

# 查看拒绝的连接数
redis-cli INFO stats | grep rejected_connections

# 查看最大连接数设置
redis-cli CONFIG GET maxclients

解决方案：

增加maxclients值
优化客户端连接管理
使用连接池减少连接创建
检查是否有连接泄漏

4. 复制问题

问题：主从复制延迟

排查方法：

# 在从节点上查看复制延迟
redis-cli -p <slave-port> INFO replication | grep lag

# 查看主节点输出缓冲区
redis-cli -p <master-port> CLIENT LIST | grep slave

解决方案：

增加网络带宽
调整从节点的CLIENT-OUTPUT-BUFFER-LIMIT
减少主节点的写入压力
考虑使用级联复制减轻主节点负担
使用Redis 5.0+的增量复制功能

问题：复制中断

排查方法：

# 查看复制状态
redis-cli INFO replication

# 检查从节点错误日志
tail -f /path/to/redis/log

解决方案：

检查网络连接稳定性
增大复制积压缓冲区大小(repl-backlog-size)
调整复制超时参数(repl-timeout)
确保主从节点配置兼容
如需要，手动触发复制同步

5. 集群问题

问题：集群槽迁移卡住

排查方法：

# 查看集群状态
redis-cli CLUSTER INFO

# 查看槽分配
redis-cli CLUSTER SLOTS

# 查看正在迁移的槽
redis-cli CLUSTER NODES | grep migrating

解决方案：

使用CLUSTER SETSLOT STABLE命令取消迁移
重新启动迁移过程
如果问题持续，可能需要重启节点
在低峰期进行槽迁移操作

问题：集群节点不可达

排查方法：

# 检查集群节点状态
redis-cli CLUSTER NODES

# 检查失败节点
redis-cli CLUSTER NODES | grep fail

解决方案：

检查网络连接
确认节点进程是否正常运行
调整cluster-node-timeout参数
如果是主节点，可能需要手动故障转移
重新启动失败节点并重新加入集群

五、Redis运维最佳实践

1. 监控策略

建立全面监控：
- 系统层面：CPU、内存、磁盘、网络
- Redis层面：内存使用、命令执行、连接数、命中率
- 应用层面：响应时间、错误率、业务指标
设置合理告警阈值：
- 内存使用率>80%
- 连接数>最大连接数的80%
- 命令执行延迟>预期值的2倍
- 复制延迟>10秒
- 键驱逐率突增
监控频率：
- 关键指标：10-30秒
- 一般指标：1-5分钟
- 聚合分析：按小时/天汇总

2. 备份策略

RDB备份：
- 定期执行BGSAVE
- 将RDB文件复制到远程存储
- 保留多个时间点的备份
AOF备份：
- 使用everysec同步策略
- 定期执行BGREWRITEAOF控制文件大小
- 备份AOF文件到远程存储
混合备份：
- 使用RDB+AOF混合持久化(Redis 4.0+)
- 定期验证备份文件的完整性
- 演练恢复流程
备份自动化：
- 编写备份脚本并设置定时任务
- 监控备份任务执行状态
- 自动清理过期备份

3. 扩容与缩容

水平扩容：
- 使用Redis集群添加新节点
- 使用CLUSTER MEET命令将新节点加入集群
- 使用CLUSTER REBALANCE重新分配槽
垂直扩容：
- 增加单个Redis实例的内存
- 使用更高性能的硬件
- 迁移数据到新实例
读写分离：
- 配置从节点分担读请求
- 使用Redis Sentinel自动故障转移
- 客户端实现读写分离逻辑
缩容策略：
- 将槽从要移除的节点迁移出去
- 使用CLUSTER FORGET命令移除节点
- 更新客户端配置