早上被微盟运维人员删库的事件刷屏了,超过36小时,仍未完全恢复,我花了点时间从通告的信息中做了一些深入地分析解读,分享给大家。
最主要目的还是想通过分析和建议,帮助大家如何能够避免这样灾难性故障。

我想大家比较关心的会是下面几个关键问题:
第一,为什么恢复时间会这么久,已经过去了36个小时,而且至今无法完全恢复?
第二,为什么一个运维人员会有这么大破坏力,让整个公司业务都瘫痪了?
第三,以上两个问题有什么好的办法解决吗?
第四,文中提到了某云厂商,这个事跟云厂商的稳定性有什么关系吗?
我们就一个个来看一下,首先我们要结合微盟的故障通告看。

第一个问题,为什么这么长时间还没恢复?
其实从公告中,我们可以看到,到目前为止,仍在在进行中的恢复动作就是做数据恢复。
所以不难推断,这次故障被破坏最严重的就是生产系统的数据库,而且一定是核心库,或许应用环境也被破坏掉了,但是影响不会像现在这么大。
那为什么数据恢复会花这么长时间呢?我大致推测有以下几个原因:
1、这个事件非常不幸,就是传说中删库跑路的操作,而且是极有可
微盟故障启示:数据安全与备份的重要性

本文分析了微盟因运维人员误删数据导致的长时间故障,强调了数据备份和权限控制的重要性。建议企业应使用云数据库产品、做好多方位备份、实施权限管控,并关注员工素质和责任心。同时,云厂商应从客户需求出发,提供全面的解决方案。
最低0.47元/天 解锁文章
378

被折叠的 条评论
为什么被折叠?



