云平台运营与可靠性:最佳实践与现代方法
1. 云项目中的常见问题与反模式
在云项目实施过程中,常常会遇到各种问题。比如,曾有一个产品团队聘请我加速其云项目,但我们竟需等待一个月才能访问云环境,原因是运维开发(DevOps)团队未将此列为优先事项。该公司的基础设施团队虽更名为“DevOps”,却未与产品团队协作,导致了不必要的等待时间,这与 DevOps 运动所倡导的协作环境背道而驰。
另外,DevOps 的一个重要原则是自动化,但在自动化所有流程之前,应重新评估现有流程。当软件架构不佳时,可靠性往往较低,会引发大量计划外工作。随着临时修复的累积,架构会不断恶化,这被架构师戏称为“最终架构”。流程方面也类似,最初为应对当前挑战制定的合理流程,随着时间推移和新问题的出现,会不断添加临时“修复”,最终变得难以操作,人们甚至不知某些步骤存在的原因,且不敢轻易改动,怕整个流程崩溃。
在考虑自动化流程时,进行价值流映射练习是个好方法,以此了解流程的端到端情况和低效之处,避免自动化本不应执行的流程。
2. 云平台最佳实践
2.1 采用产品思维
平台应赋予开发者自助服务能力,让他们能够自行部署和运营服务。这与过去开发者需通过基础设施和运营团队才能开展工作的方式有很大不同。运营团队应专注于提供可靠服务,而非参与平台上应用的运营。重点是为开发者构建强大的服务目录,并将安全(包括安全、合规性、成本控制)融入平台。开发者使用平台服务的体验应简便且不耗时,新开发者的平台接入应简单,同时要有充足的培训,平台团队应与开发者协作,优化“客户”体验。
2.2 采用云服务提供商思维
将云平台团队视为内部云
超级会员免费看
订阅专栏 解锁全文
4517

被折叠的 条评论
为什么被折叠?



