我们现在生产系统的主数据库的服务器在2016年购入,到现在已经快5年了,今年春节以前几乎没有出现过任何硬件的故障。
过完春节后,到了3月后,某一天系统突然无故挂了,自动重启也没有能够启动,于是强行手动重启。
本次故障后大约3周,主服务器进入了故障模式中,经常意外重启,而且自动重启往往无法生效,也就是在重启过程中突然
就卡死了,只能后台强制重启,有时候远程无法强制重启,还得现场去强制断电重启,这就尴尬了。找供应商的人来检测过,
也更换过一次故障内存,但是这种情况频繁出现,生产系统经不起这么折腾。每次故障,我们一拨人都得调查,写报告,汇报,
实在是不堪其扰。后来我们和Infra的同事做了沟通,这台服务器当初可是花重金买的,而且配置是目前深圳机房最好的,Infra的
同事告诉我们,虽然如此,但是也差不多5年就到了寿命了。虽然有的服务器可能8年都还能正常工作,但是也得看情况,测试用
的服务器使用强度没有那么高,所以寿命会长些,但是生产是时刻都在运转,根本就不会停下来,出发故障或者定期的停机维护。
所以这种高强度的使用下,5年也就差不多了。
这篇博客讲述了作者所在公司的主数据库服务器在使用近5年后开始频繁出现故障,从无故挂机到频繁重启,严重影响了生产系统的稳定性。尽管服务器曾经表现出良好的耐用性,但随着年限增长,故障率增加,使得团队疲于应对。技术人员已经尝试过硬件更换和故障排查,但问题依然存在。文章讨论了服务器寿命的问题,指出高强度使用的生产服务器可能比测试服务器寿命更短,暗示了可能需要考虑升级或替换硬件以确保生产系统的稳定运行。
747

被折叠的 条评论
为什么被折叠?



