SRE读书笔记-SRE方法论(未完待续)

探讨SRE(Site Reliability Engineer)与DevOps模式在IT运维中的应用与融合,分析系统管理员模式的问题,如成本上升与团队目标分歧,及SRE如何通过开发与运维技能结合,推动无人化运维,保障系统稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍

在读《SRE-google运维解密》总会不自觉的代入到现有的运维环境来思考,对比两种模式的差异,方法论如果不落地,永远是方法论,好的方法本土化,最终落地,才是好方法!

引用中,是作者的一些经验想法,如果有谬误和片面的地方,请指正!

系统管理员模式

SRE认为IT部门分为DEV和OPS,属于系统管理员模式,优势是招聘相对容易,还有集成厂商各种开源的、不开源的运维工具帮助运维团结进行业务运维工作,而这种模式也从在以下2个问题:

  1. 直接成本。随着业务复杂度、系统规模、部署规模的扩大,团队的大小基本与系统负载成线性相关,共同增长。
  2. 间接成本。因工作目标、可靠性理解的差异、危险评估等分析差异,导致两个团队在目标和方向上的分歧。

1.国内IT团队实施devops这种模式,注重的敏捷、精益、持续集成、持续交付,dev是业务开发,ops是运维,通过协作的方式,打通dev到ops之间的墙,从而实现向业务快速交付价值。
2.业务访问、规模、复杂度上升导致运维成本上升是必然的,努力的方向是让上升趋势放缓。
3.SRE需要一边开发业务系统,然后有高级运维的技能和意识,国内应该很罕见。
4. 开发与运维两个团队在目标和方向上的分歧,其实是能力上的问题,无法界定风险、无法降低风险、无法承担风险、有时候其实是技术问题。在没有能力支撑的时候,什么都有风险的…

google的解决之道 SRE

SRE-Site Reliability Engineer (网站可靠性工程师),由一个职位,发展成一套技术模型、指导思想、方法论等。SRE团队中有一半成员是专业的开发、一半成员是专业的开发还同时掌握其他技术能力的工程师。SRE工程师50%时间做传统运维工作、50%时间进行开发工作,终极目标是推动整个系统趋向于无人化运行,而不仅仅是自动化某些人工流程。SRE团队之前和研发团队之前的成员可以自由流动,普通的开发都可以参与大规模运维活动中。

1.一个公司的业务活动是,是为了更快速的占领市场,实现现金流的快速回笼,而目标快速为业务交付价值的devops工作流,则正好满足这一点,互联网公司的选择偏向就很明显。
2.之所以所学SRE,除了吸收其中的精华拿来使用,换一个思考方向,运维其实也是一种产品,同样为业务交付价值,当运维系统变得庞大时,我们如何保证自己的系统的稳定,如果连运维系统都无法保证可靠性,又如何去保证业务系统的可靠性。
3.运维开发和运维,如果团队管理的不协调,也是会存在一堵墙,老司机们应该都知道的。
4.运维团队正在逐步向全团队运维开发转变着。

未完待续

Seeking SRE: Conversations About Running Production Systems at Scale By 作者: David N. Blank-Edelman ISBN-10 书号: 1491978864 ISBN-13 书号: 9781491978863 Edition 版本: 1 出版日期: 2018-09-17 pages 页数: (587) The more than two dozen chapters in Seeking SRE bring you into some of the important conversations going on in the SRE world right now. Listen as engineers and other leaders in the field discuss different ways of implementing SRE and SRE principles in a wide variety of settings; how SRE relates to other approaches like DevOps; the specialities on the cutting edge that will soon be common place in SRE; best practices and technologies that make practicing SRE easier; and finally hear what people have to say about the important, but rarely discussed human side of SRE. Introduction 1. SRE Implementation 1. Context Versus Control in SRE 2. Interviewing Site Reliability Engineers 3. So, You Want to Build an SRE Team? 4. Using Incident Metrics to lmprove SRE at Scale 5. Working with Third Parties Shouldn’ tSuck 6. How to Apply SRE Principles Without Dedicated SRE Teams 7. SRE Without SRE: The Spotify Case Study 8. Introducing SRE in Large Enterprises 9. From SysAdmin to SRE in 8,963 Words 10. Clearing the Way for SRE in the Enterprise 11. SRE Patterns Loved by DevOps People Everywhere 12. DevOps and SRE: Voicesfrom the Community 13. Production Engineering at Facebook lⅡ. Near Edge SRE 14. In the Beginning, There Was Chaos 15. The Intersection of Reliability and Privacy 16. Database Reliability Engineering 17. Engineering for Data Durability 18. Introduction to Machine Learning for SRE ll. SRE Best Practices and Technologies 19. Do Docs Better: Integrating Documentation into the Engineering Workflow 20. Active Teaching and Learning 21. The Artand Science of the Service-Level Objective 22. SRE as a Success Culture 23. SRE Antipatterns 24. Immutable Infrastructure and SRE 25. Scriptable Load Balancers 26. The Service Mesh: Wrangler of Your Microservices? Ⅳ. The Human Side of SRE 27. Psychological Safety in SRE 28. SRE Cognitive Work 29. Beyond Burnout 30. Against On-Call:A Polemic 31. Elegy for Complex Systems 32. Intersections Between Operations and Social Activism 33. Conclusion Index
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

^白开水^

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值