redis cluster实践中常见问题

最新推荐文章于 2023-05-31 17:11:13 发布

原创

最新推荐文章于 2023-05-31 17:11:13 发布 · 196 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#redis #数据库 #缓存

本文讨论了Redis Cluster在实践过程中遇到的一些问题，包括fork耗时导致的高并发请求延时、AOF的阻塞问题、主从复制延迟、主从复制风暴、内存管理配置、swapiness设置以及最大打开文件句柄和TCP backlog的调整。通过优化这些方面，可以提高Redis集群的性能和稳定性。

1、fork耗时导致高并发请求延时

RDB和AOF的时候，其实会有生成RDB快照，AOF rewrite，耗费磁盘IO的过程，主进程fork子进程
fork的时候，子进程是需要拷贝父进程的空间内存页表的，也是会耗费一定的时间的
一般来说，如果父进程内存有1个G的数据，那么fork可能会耗费在20ms左右，如果是10G~30G，那么就会耗费20 * 10，甚至20 * 30，也就是几百毫秒的时间
info stats中的latest_fork_usec，可以看到最近一次form的时长
redis单机QPS一般在几万，fork可能一下子就会拖慢几万条操作的请求时长，从几毫秒变成1秒
优化思路
fork耗时跟redis主进程的内存有关系，一般控制redis的内存在10GB以内，slave -> master，全量复制

2、AOF的阻塞问题

redis将数据写入AOF缓冲区，单独开一个现场做fsync操作，每秒一次
但是redis主线程会检查两次fsync的时间，如果距离上次fsync时间超过了2秒，那么写请求就会阻塞
everysec，最多丢失2秒的数据
一旦fsync超过2秒的延时，整个redis就被拖慢

优化思路
优化硬盘写入速度，建议采用SSD，不要用普通的机械硬盘，SSD，大幅度提升磁盘读写的速度

3、主从复制延迟问题

主从复制可能会超时严重，这个时候需要良好的监控和报警机制
在info replication中，可以看到master和slave复制的offset，做一个差值就可以看到对应的延迟量
如果延迟过多，那么就进行报警

4、主从复制风暴问题

如果一下子让多个slave从master去执行全量复制，一份大的rdb同时发送到多个slave，会导致网络带宽被严重占用
如果一个master真的要挂载多个slave，那尽量用树状结构，不要用星型结构

5、vm.o