
Google SRE运维解密
micklongen
micklongen
展开
-
A. Google SRE概述
A. Google SRE概述 概述 开发与运维的关注点 开发:如何能够更快速地构建和发布新功能 运维:如何提高可用性,降低故障率 Google SRE团队组成 前提 所有的SRE团队成员都必须非常愿意,也非常相信用软件工程方法可以解决复杂的运维问题。 团队...原创 2019-05-01 18:21:11 · 2055 阅读 · 0 评论 -
D. Google SRE 管理 - SRE参与模式
D. Google SRE 管理 - SRE参与模式 SRE为了保证该服务的可靠性,需要考虑的方面 系统的体系结构和跨服务依赖 指标的选择,度量和监控 紧急事件处理 容量规划 变更管理 性能:可用性,延迟和资源效率 对于未支持的服务,可以提供: 文档 ...原创 2019-05-01 19:03:11 · 1525 阅读 · 0 评论 -
D. Google SRE 管理 - 培训SRE
D. Google SRE 管理 - 培训SRE 培训课程 正确的方式 设计一个具体的,有延续性的学习体验,以便学员跟进 鼓励反向工程,利用统计学来思考问题,以及多思考问题本质 鼓励学员分析失败的案例,分享好的事后总结来阅读 创造一些受控的,但是逼真的场景让学员利用真实的监...原创 2019-05-01 19:00:32 · 1559 阅读 · 0 评论 -
C. Google SRE 实践 - 产品发布
C. Google SRE 实践 - 产品发布 组织结构:发布协调工程师 工作内容 审核新产品和内容服务,确保它们和Google的可靠性标准以及最佳实践一致,同时提供一些具体的建议来提升可靠性 在发布过城中为多个团队之间的联系人 跟进发布所需任务的进度,负责发布过程中所有技术相关的问题 ...原创 2019-05-01 18:52:48 · 466 阅读 · 0 评论 -
C. Google SRE 实践
C. Google SRE 实践 概述 服务可靠度层级模型 产品设计 软件开发 容量规划 测试 + 发布 事后总结和问题根源分析 应急事件处理 监控 监控(10) 组件 ...原创 2019-05-01 18:50:21 · 798 阅读 · 0 评论 -
E. Google SRE 其他行业的经验
E. Google SRE 其他行业的经验 核心理念 灾难预案与演习 事后书写总结的文化 自动化与降低日常运维负载 结构化的,理智的决策 灾难预案与演习 核心 从组织结构层面坚持不懈地对安全进行关注 高危制造车间 ...原创 2019-05-01 19:04:43 · 536 阅读 · 0 评论 -
D. Google SRE 管理
D. Google SRE 管理 培训SRE(28) 管理中断性任务(29) 运维内容 紧急警报 工单 其他持续性运维活动 解决中断性任务的措施:轮值 on-call 制定策略前提 中断任务的SLO,即预期的响应时间 ...原创 2019-05-01 18:58:31 · 491 阅读 · 0 评论 -
B. Google SRE指导思想 - 拥抱风险
B. Google SRE指导思想 - 拥抱风险 概述 目标:快速创新和高效的服务运营业务之间的风险的平衡 提升可靠性的成本 冗余的物理服务器/计算资源的成本 机会成本 度量服务的风险 基于时间的可用性 系统正常运行时间 / (系统正...原创 2019-05-01 18:47:23 · 718 阅读 · 0 评论 -
B. Google SRE指导思想
B. Google SRE指导思想 拥抱风险 服务质量目标 服务质量指标 常见指标 错误率 系统吞吐量 可用性 持久性:数据能够完整保存的时间 等等 分类...原创 2019-05-01 18:24:12 · 625 阅读 · 0 评论