The site reliability workbook
文章平均质量分 82
焦振清
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一章 SRE与DevOps之间的联系
作者:By Niall Richard Murphy,Liz Fong-Jones, and Betsy Beyer,with Todd Underwood, Laura Nolan,and Dave Rensin运维是一门很难的学科。 不但没有解决如何很好地运行系统,即便那些已经在使用的最佳实践也是高度依赖环境且未被广泛采纳的。 并且最重要的,没有解决如何良好地管理运维团队这一问题。人们普遍...翻译 2018-12-10 15:33:27 · 1848 阅读 · 0 评论 -
第二章 实施SLO
作者: Steven Thurgood、David Fergusonwith编辑: Alex Hidalgo、Betsy Beyer翻译:张翔校验:孙建刚,徐德昌,张永福,李昊,石文,李佩京SLO为服务可靠性设定了一个目标级别。它是可靠性决策的关键因素,所以是SRE实践的核心。无论从哪个角度来看,这都将是本书中最重要的一章。我们只有具备了一定的理论,设置初始的SLO并细化它们,...翻译 2018-12-10 15:35:16 · 1347 阅读 · 0 评论 -
第三章 SLO工程案例学习
作者:Ben McCormack (Evernote),William Bonnell (The Home Depot),编辑:Garrett Plasky (Evernote),Alex Hidalgo,Betsy Beyer和Dave Rensin尽管SRE的许多原则都是在Google内部形成的,但它的原则早已存在于Google之外。许多Google SRE的标准已被业内多个组织实践应...翻译 2018-12-10 15:36:03 · 1391 阅读 · 0 评论 -
第四章 监控
作者: Steven Thurgood、David Fergusonwith编辑: Alex Hidalgo、Betsy Beyer校验:张胜楠,臧万顺,樊帅宇,刁冰雪监控涉及到多种类型的数据,包括监控指标,纯文本日志,结构化日志,分布式跟踪日志, event introspection。 以上各种数据都有它们各自的用处,但是本章主要讨论监控指标和结构化日志。根据我们的经验,这两种数据...翻译 2018-12-10 16:09:20 · 554 阅读 · 0 评论 -
第五章 报警 SLO
本章介绍如何在发生重要事件将SLO转换为可操作的报警。我们的第一本SRE和本书都讨论了实施SLO。我们相信,拥有很好的SLO可以衡量你的平台可靠性,正如你的客户所经历的那样,可以为on-call人员该如何迅速做出响应提供最准确的提示。在这里,我们提供了有关如何将这些SLO转换为报警规则的具体指导,以便你在消耗过多的错误预算之前响应问题。我们的示例展示了一系列报警指标和逻辑的复杂实现;讨论他们的...翻译 2018-12-10 16:10:11 · 1479 阅读 · 0 评论 -
第六章 减少琐事
Google SRE花费大量时间对系统进行优化,哪怕是很少的性能收益,也会通过工程化方法,与开发一起协同努力,追求卓越。但优化范围不仅局限于服务器资源,SRE的工作耗时也是重点。首先,SRE工作不是琐事,(关于琐事请参阅《SRE:Google运维解密》第5章内容)。本章我们将琐事定义为与维护服务相关的重复的、可预测的、持续的任务流。对于任何产品运维团队来说,琐事不可避免。运维不可避免地需要处理...翻译 2018-12-10 16:11:15 · 1063 阅读 · 0 评论 -
第七章 简单化
作者:John Lunney, Robert van Gent, Scott Ritchie,Diane Bates and Niall Richard Murphy一个可正常工作的复杂的系统总是从以前可以正常工作的简单系统演变而来的。 ——Gall’s Law简单化是SRE的重要目标,因为它与可靠性密切相关:简单的软件很少出现故障,在故障发生时更容易且迅速地修复。简单的系...翻译 2018-12-10 16:12:17 · 477 阅读 · 0 评论
分享