SRE 的黄昏，平台工程的初晨

原创已于 2023-10-18 12:11:13 修改 · 273 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #运维 #DBA #开发者 #数据库管理 #DevOps

于 2023-10-18 12:10:01 首次发布

文章探讨了SRE如何面临挑战，以及平台工程的兴起作为解决方案，它以用户为中心，整合SRE、PaaS和研发效能，解决基础设施复杂性问题。Gartner的趋势报告强调了平台工程的重要性。

file

船停在港湾是最安全的，但这不是造船的目的

完成使命的 SRE

过去 10 年，SRE 完成了体系化保障系统稳定性的使命。但在这个过程中，SRE 也逐渐变成了庞大的组织。而 SRE 本身的定位是保障系统稳定性，许多时候会因为担心稳定性而减缓发布。虽然我们希望软件的发布又快又稳，但无论是根据日常经验，还是从 DORA 的报告中，我们都能看到软件交付表现 (Software delivery performance) 和运行表现 (Operational performance) 整体上还是此消彼长的情况。

那有什么可以打破这个困局呢，DORA 在 2023 年的报告中也给出了答案，引入以用户为中心 (user-centric) 这个元素。

file

到了实施层面，用户为中心对应的就是近两年逐渐兴起的平台工程 (Platform Engineering) 概念。

平台工程的崛起

平台工程最早能查到的系统性分享应该是 2017 年 The Paved Road at Netflix。

file

平台工程的出圈是由去年「DevOps 已死，平台工程才是未来」的一条宣言开始的。

file

当下平台工程已经成为了行业公认的趋势，就在前两天 Gartner 发布的 2024 技术趋势报告中，平台工程也是连续第二年上榜，还是在被 AI 相关的屠榜中占得一席之地（而去年爆炒的元宇宙已经不在了）。

file

而在稍早之前 Gartner 另一份 Hyper Cycle 报告中，Platform Engineering 以及它的载体 Internal Developer Portal (IDP) 也从 2022 的创新逐渐走向 2023 的高峰。

file

平台工程的背后有实力强大的商业公司背书，比如 HashiCorp, Harness。

file
file

还有日益壮大的 Platform Engineering 社区。

file

平台工程属于 PaaS 层，它的逐渐流行可以从三个方面来看：

在其之下依赖的 IaaS 层通常是各大云厂的 IaaS，这部分日趋成熟，所以使得精力可以上移到 PaaS。
在其之上被依赖的 SaaS 层则是各业务线，随着业务线的扩展，就希望提炼出一套可以复用的组件，这就是要下沉到 PaaS 层。
PaaS 层本身的平台工具也日趋完善，从最底层的统一平面 Kubernetes 往上，已经有一组比较成熟的平台工具套件。

平台工程和之前的中台概念有类似之处，同样夹在底层 IaaS，上层业务 SaaS 之间。和中台业务的区别在于，之前的中台多面向业务层，是去整合上层散乱重复的业务系统。而平台工程则是面向基础层，去整合底层的基础设施系统。

现在拆中台的原因是虽然中台整合了，但离业务系统远了，无法响应前线的需求。平台工程崛起的原因，是因为下层的基础设施太复杂了，好不容易摸清门路，发现还有人挡路。Terraform 可以大获成功是因为它屏蔽了管理多云资源的复杂度。

平台工程要做的事情，就是把 Terraform 的成功泛化，把 SRE，PaaS，研发效能这些都整合在一起，提供一个对开发者友好，让他们可以自助的平台。

中台要拆的原因是业务的需求是各异的，电商，外卖，放贷有完全不同的业务逻辑。平台工程可以合的原因是研发的需求是共通的：大家都用 Git 做代码管理，用 Prometheus 看监控，用 Terraform 管云资源，用 Bytebase 管数据库，从否认开始解决 bug 的第一步。

file

结束语

平台工程会是未来，但在研发组织拥抱平台工程的过程中，也首先还需要经历一段 SRE, PaaS, 研发效能这几个团队整合的阵痛。早年的运维工程师叫做 PE，当中历经 SRE 的转型，如今又要迈向 PE。从 Production Engineer 到 Platform Engineer，历史的轮回，冥冥之中自有天意。

💡 你可以访问官网，免费注册云账号，立即体验 Bytebase。