
稳定性
文章平均质量分 81
sre稳定性体系建设
alden_ygq
一枚北漂7年多的资深SRE菜鸟,专注SRE方向,专注于运维体系建设。个人宣言:先努力成就自己,再用知识成就他人。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
GoReplay 流量录制与回放
GoReplay 提供了强大的流量录制、回放、过滤、限速、输出和转发功能,能够模拟真实生产环境中的流量情况,支持负载均衡测试、性能测试、故障复现等应用场景。其高度的灵活性使得用户可以根据需求精准控制流量回放行为,例如设置回放速率、选择特定请求进行回放、输出流量信息等。GoReplay 在流量模拟方面的强大功能,对于大规模系统的性能测试、分布式环境中的流量复现,或者在多台服务器间模拟负载均衡行为,具有重要的价值和应用前景。原创 2025-05-23 16:14:46 · 816 阅读 · 0 评论 -
运维变更规范要求
企业需根据自身业务特点细化规范(如金融行业需更严格的合规审批,互联网行业需强调灰度发布),并通过持续培训和复盘迭代流程,最终实现 “变更可预期、风险可控制、故障可追溯” 的目标。运维变更是指对生产环境中的系统、配置、代码、硬件等进行的任何修改操作。变更规范是保障变更安全、可控、可追溯的核心流程,直接关系到系统稳定性和业务连续性。注:长期变更应确定好每个变更时间点的变更范围,以确保每次变更都在预期内,禁止变更预期外的内容。运维变更规范的核心是通过。降低人为失误,同时通过。原创 2025-05-19 23:29:28 · 792 阅读 · 0 评论 -
稳定性体系建设包含哪些方面?
的原则,通过技术层构建抗风险能力、流程层规范操作标准、组织层提升团队效能、数据层驱动科学决策,形成闭环管理。稳定性体系建设是一个系统性工程,旨在通过技术、流程、组织等多维度的策略,保障系统、业务或组织在面对内外部压力时能够持续、可靠地运行。技术层是稳定性体系的基础,聚焦于通过架构设计、工具链和基础设施提升系统抗风险能力。流程层通过规范操作和协作机制,降低人为因素导致的稳定性风险,提升问题处理效率。组织层通过人员分工、技能培训和文化建设,确保稳定性目标在团队中落地。稳定性体系建设需遵循 “原创 2025-05-19 23:19:07 · 866 阅读 · 0 评论 -
运维oncall体系设计与建设方案
处理事故时不仅要处理现有问题,处理完毕还需要写事故报告和总结,非常耗时耗力,单日的生产环境报警故障处理总数尽量不超过3-4个,否则会造成运维压力过大,同时长时期执行夜间工作对人的身体不利,尽量避免夜间值班。oncall的意思是随时待命,oncall轮值工作是SRE、运维、研发团队的重要职责,它的目标是保证服务的可靠性和可用性。oncall值班把工作带入了生活,时刻都有潜在的工作压力,需要为on-call工程师提供额外的补贴或调休,避免工程师对工作厌倦。另非紧急告警尽量集中在工作时间处理,减少夜间打扰。原创 2025-05-19 12:59:42 · 869 阅读 · 0 评论 -
业务中缓存被击穿会导致什么后果?如何应急?如何优化?
本文以redis为例,介绍业务中缓存被击穿会导致什么后果?如何应急?如何优化?在高并发场景下,Redis 击穿是一个常见且可能引发严重后果的问题。以下从后果分析、应急处理和长期优化三个维度进行详细解答,并提供实战方案。某电商平台的热门商品缓存过期后,10 万并发请求直接打向数据库,导致: 2. 熔断降级 方案:当检测到数据库响应异常时,自动熔断对数据库的访问,直接返回降级数据(如缓存的旧数据、默认值)。 示例(Resilience4j): 3. 手动预热缓存 方案:通过原创 2025-05-17 22:00:53 · 588 阅读 · 0 评论 -
系统稳定性建设中的度量指标
通过以上指标的持续监测和优化,可系统性提升系统的稳定性,降低故障风险。通过监控和日志实现对系统状态的实时感知,是稳定性建设的基础。反映系统在负载下的服务质量,性能劣化可能导致稳定性风险。衡量系统无故障提供服务的能力,是稳定性最核心的指标。衡量系统应对异常(如硬件故障、流量突增)的能力。衡量版本迭代和配置变更对稳定性的影响。系统稳定性建设中的度量指标可从。原创 2025-05-17 18:18:45 · 830 阅读 · 0 评论 -
运维5条规范要求
对线上保持敬畏感」原创 2023-07-20 22:31:00 · 252 阅读 · 0 评论