不出事故，没有人知道你重要

最新推荐文章于 2025-01-12 09:15:16 发布

原创最新推荐文章于 2025-01-12 09:15:16 发布 · 75 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章讨论了运维在保持线上环境稳定时的重要性，即使事故罕见，但运维在事故处理中的角色不可忽视。作者质疑为何事故后才强调运维价值，提出稳定性建设应是持续过程而非一阵风。同时，将企业对稳定性的追求比作痛风，强调预防优于事后补救。

有同学在知乎上提问：“线上无事故，运维还重要吗？”，描述如下：

本人运维行业，本部门在近几年一直保持效率增长且极少出现重大saas生产事故，并且为其他部门输出提升方法以及友好协同提升，但是最近从各层面接到反馈说对运维的投入减少，着实想不通，线上出了事故要运维背锅，产品出了bug要运维陪着到最晚，为什么把线上环境搞得稳定了，却不重视运维岗了？

这是原贴：https://www.zhihu.com/question/497361582

以上提问的是一个运维的同学。言下之义是不出事故，没有人知道运维重要。

这位同学的的感受，过去几年，我感同身受。我相信因为这个标题而点进这篇博客的同学，也有同样的感受。

但是，为什么出事故后，是运维重要呢？而不是测试、开发或者手机端开发呢？

通常是因为运维这个角色：

1. 线上环境，他们最清楚，通常也只有他们有权限操作线上环境，可以紧急加一个数据库索引；
2. 他们掌握了部署能力，可以发起回滚操作；
3. 有权限查看各个组件的情况，并诊断根因；
4. 为团队准备基础设施能力，如金丝雀发布能力；
5. 搭建告警监控系统、CMDB、DevOps平台等。
6. 等等

但是，这些与是否出事故，有多大的关联性呢？我们应该统计各种事故的根因的类型的比例，才有答案。

就目前而言，我们并不能说因为我们看重运维，就不出事故。

以上的问题是从个人感受出发的提问。只是更深层次问题的表象。

从企业层面上，我的疑问是：为什么在企业里，稳定性建设通常都是一阵阵的。即出一次事故，就立个项，就加班加点去完成“稳定性”项目。

比起讨论个人感受，从企业层面讨论这个问题，似乎更有趣。

其实，除了稳定性，软件的质量建设也是一阵阵的。想想，不是吗？不出Bug，没有人知道测试重要。

也许这是所有企业的正常表现。就像人的身体，痛风（一种慢性病）不发作时，你是不会感受它的存在，也自然就不会想到要去治疗或者预防它。然而，如果平时不注意饮食和锻炼，痛风经常复发。

线上事故就如同企业的痛风。企业应对“痛风”，容易好了伤疤忘了痛。

虽说可能是所有企业的正常表现，但不是一种健康的表现。

预防痛风，只能通过健康的生活方式如：

• 限制或避免饮酒，尤其是啤酒。
• 限制或者避免饮用含糖饮料，尤其是含高果糖玉米糖浆的饮料。
• 限制肉类摄入量，尤其是红肉、内脏和海鲜。
• 保持健康的体重。如果您需要减肥，请避免断食或过快地减肥，因为这可能会暂时增加尿酸水平。
• 增加水和低脂乳制品的摄入量。这些有预防痛风的作用。

一个人应对痛风的健康表现应该是采用健康的生活方式。

说回企业的稳定性建设，也是一样的道理。

稳定性不是通过“一阵阵的运动”或者“一阵阵的表演”来建设的，而是通过平时健康的企业活动来实现的（我无意指导别人的企业，这只是我个人的思考）。

当然，现实中，对于有些人，要维持健康的生活方式是一件很难的事情（想想有身边有多少人做到早睡早起），而另一些人是一件很自然的事。为什么呢？

相同的，一家企业为什么无法自然地做到健康的企业活动？一定要出事故，才知道X的重要性呢？（X代表任何东西）

这个问题就很大了。希望对各位读者有启发。

往期好文推荐：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。