某业务redis集群存在较大风险,可能红包业务受影响,为避免业务受影响,请调整红包redis集群方式为:主从方式,避免单点故障。(目前集群模式为全主模式,服务器故障了,连接此服务器业务就会受影响。)
一、问题描述:
1. 2022年10月25日 182.39.46.60告警存在/app 只读模式告警,平台维护排查此服务器一块 硬盘坏了。
维护厂家回复:此raid组和分区方式导致坏一个磁盘,导致数据无法恢复,必须重装系统。
业务影响: 由于此服务器服务红包雨业务,当前长时间无此业务,所以业务没受影响。
2. 2022年8月17日 182.39.46.61也出现同样的问题,一块磁盘坏了。最终紧急重装系统,重新配置redis恢复。
二、问题分析
1.据厂家反馈这批型号的浪潮服务器故障率非常高,在省公司100多台,厂家接手维保以来坏了二十多台主板
2.此批次服务器raid组和分区方式,目前其中一块磁盘损坏,可能无法恢复数据,必须重装系统。(近期已发生2例)
3. 182.39.46.60-63 这4台服务都是同一批次的浪潮PC服务器,所以其他服务器出现故障概率较高,存在较大风险
4. 182.39.46.60-63 这套redis集群采用全主模式,某台服务器出问题,就会出现连接此服务器上业务受影响。
三、建议
1. 请业务测尽快调整redis集群模式,避免目前单点故障,造成业务影响。
2. 另我这边跟平台、厂家讨论下,这个批次服务器有无其他预防措施。