虽然各大行业和企业都在畅谈拥抱云计算,或正在践行通过云计算完成业务的数字化转型,但在真正落地过程中,摆在开发者或运维人员面前的问题显得更直接和残酷。从上云 POC 测试、业务迁移、应用部署、日常运维、到后续的持续性优化,每个阶段都面临着不同的挑战。
与传统运维不同,云上运维人员完全接触不到物理设备,感知不到底层基础设施的细节,取而代之的是云服务器、云盘、VPC 网络等已经封装好的产品形态。上云已是趋势,但如何基于云上的产品形态和云原生的能力做好自动化运维却变得更具有挑战。
举个例子 …
云服务器的选型标准化了却也复杂了,云服务器相关问题排查因底层资源的不透明导致难度变大了,按需使用的付费模式也推动资源是否合理使用的诉求变得更强烈…..云上如何更高效地运维也就成为了运维人员共同面临的难题。
云上运维如何做到效率至上?
《Google SRE 运维解密》一书中提到,SRE 人员需要把更多时间花费在项目研发上,而不是日常运维中,而做到这一点的关键就是减少琐事。琐事即运维服务中手动性的、重复性的、可以被自动化的、战术性、没有持久价值的工作。而他们提倡的解决琐事的方式就是自动化。
《一文读懂云上 DevOps 能力体系》中提到了云上运维的演进路径,其背后的主要推动力就是效率。从纯手工的运维模式到半自动半手工,其实就是把重复的人工操作变成自动化,再进一步就是智能化。不过,效率的提升一方面是自动化能力的提升,另一方面也要依赖于云服务平台服务模式的改变。
举个例子 …
最早我们去银行办业务,无论是最简单的查询余额或取钱存钱,还是复杂的办卡、理财业务等,都需要到柜台排队办理,而银行的营业时间与我们的工作时间一致,体验非常的不好。
后来,ATM 机出现了,我们找到