
SRE Google运维解密
陌逸_逺
Ideas fly on code
展开
-
SRE Google运维解密——第7章 Google的自动化系统的演进
第7章 Google的自动化系统的演进==================================================================自动化 与GoogleSRE 联系自动化价值一致性可以准确执行重复可能出错的命令或者行为平台性可以搭建一个可扩展的平台,解放运维修复速度更快对于出错的处理更好的指定修复行动速度更快...原创 2019-09-07 17:47:37 · 635 阅读 · 0 评论 -
SRE Google运维解密——第8章 发布工程
第8章 发布工程发布工程与产品研发部门的软件工程师,以及SRE一起定义发布软件的过程的全部步骤——包括软件是如何存储于源代码仓库中,构建时如何进行测试,打包,最终部署的发布工程师角色开发软件,为Google 提供各种数据(代码修改提交部署到生产环境一共需要多长时间)。定义最佳实践保障软件项目可以一致的,可重复的进行发布。发布工程哲学自服务模型每个团队可以决定多久或者什...原创 2019-09-08 16:14:37 · 539 阅读 · 0 评论 -
SRE Google运维解密——第9章 简单化
第9章 简单化系统的稳定性与灵活性通过流程,实践以及工具,来提高软件的可靠性SRE最小化路程对于开发人员的灵活性造成的影响可靠的流程会提高研发人员的灵活性乏味是一种美德负责的系统不引入意外复杂度不断努力消除正在接手的和已经负责运维的系统的复杂度我绝对不放弃我的代码清除多余的代码负代码行 作为一个指标删除没有用的代码,保持代码整洁简单最小api提供...原创 2019-09-10 23:13:45 · 332 阅读 · 0 评论 -
SRE Google运维解密——第10章 基于时间序列数据进行有效报警
第10章 基于时间序列数据进行有效报警一个大型的系统不应该要求运维人员持续关注其中使用的无数个小组件,而是应该汇总所有的信息,自动抛弃其中的异常情况。监控系统应该从高级服务质量目标层次进行报警,但是也应该保持足够的力度,可以追踪到某个具体组件Borgmon 的起源依靠一种标准数据分析模型进行报警。使得批量,大规模,低成本的数据收集变得可能 ,成为白盒监控报警规则使用简单的数学表...原创 2019-09-14 10:45:44 · 739 阅读 · 0 评论 -
SRE Google运维解密 第11章 on-call轮值
on-call轮值保证可以随时相应紧急问题,不管工作时间还是非工作时间on-call 工程师的一天on-call工程师承诺在分钟级别执行生产系统的维护需求,一般面向终端用户5分钟,非紧急30分钟。响应时间与业务可靠性有关收到报警信息,工程师必须ack,on-call 工程师即使定位并尝试解决问题,或可联系其他团队,或者升级请求支援有主on-call 和副on-call ,相辅相成...原创 2019-09-14 15:09:52 · 1333 阅读 · 0 评论