谷歌、脸书、推特接连宕机，天灾还是人祸？

转载于 2019-08-01 18:00:00 发布 · 319 阅读

2019年夏天，互联网圈经历了一系列大型网站和服务的宕机事件，包括Google、Facebook及老牌CDN服务商Cloudflare。本文分析了这些宕机背后的可能原因，涉及软件复杂度、容量溢出、人员休假、实习生问题等，强调了服务稳定性的极端重要性。

640?wx_fmt=gif

相信这几个月你一定经历过这样的场景：打开浏览器，点开收藏夹里常用的网站，结果网站 502 了，一脸懵逼，觉得是不是自己的网又挂了？打开新的 tab 根据你的年龄，敲了 163 或者百度的网址，发现居然连的上，顿了两秒才发觉原来 google/facebook/reddit/twitter 真的挂了。
640?wx_fmt=jpeg

2019 年的夏天，对于互联网圈来说简直就是一部代码版的昆汀塔伦提诺电影，虽然大家只是坐在桌前敲着键盘，没有飞舞的血浆、武士刀、深沉的内心独白和稍显平庸的谩骂，却仍然彰显着独特的暴力美学。让我们来细数一下这几月挂掉的“大佬”们有哪些： 640?wx_fmt=png

不仅仅是服务供应商，就连老牌 CDN 加速服务商 Cloudflare 也不能幸免，在 7 月 3 日由于服务器超载经历了大规模宕机。据统计，全球有超过 9% 的网站在使用 Cloudflare 的服务，有超过数千个热门网站受此次故障的影响导致不能访问。 640?wx_fmt=jpeg

CODING 作为企业研发管理解决方案的供应商，在吃瓜的同时，也来给大家大胆分析一下这一波各大厂服务抽风的原因：

1. 软件复杂程度

随着技术的革新和新服务的增加，软件应用的复杂性和精美程度已经达到了一个前所未有的高度，并丝毫没有刹车的迹象，这导致了即使是全球最优秀的技术公司也没有办法维持高稳定性。

2. 容量溢出

互联网基础设施具有周期性效应，每当一个周期的末期都会因为服务体量接近基础设施的极限从而造成不稳定因素，需要新的基础设施技术来解决，比如我们从拨号上网到光纤时代的过渡。

3. 因为夏天了，大家都去度假了国外公司的福利制度比较好，一直有度假的惯例，尤其是到了夏天。一波工程师出去度假后，他们的工作会被分配给其他人，由于接手的人不熟悉业务或者熟练度等原因造成了服务不稳定。4.实习生接锅毕业季一到，会有大量的新入职员工和实习生加入，可能由于各种原因导致新人写的糟糕代码更新到了生产环境并造成了大量破坏。5.实习生接锅 Ver.2

还是因为有大量新人加入到公司里，需要很多资深工程师给予指导，但是人的精力是有限的，很多工程师把精力分给新人后导致写代码的时间变少了，因此导致服务不稳定。

6.阴谋论可能是被某些黑客组织拿来练手了。7.玄学水逆了。

640?wx_fmt=jpeg