如何体系化地保障大促期间系统稳定性?
大促保障实际上针对于特定业务场景的集中稳定性建设工作,相较于日常保障工作,具有高并发流量、短保障周期的特点,对系统性能与保障时间有明确要求(一般为2个月左右)。
考虑到上述特性,我们如何在短时间内针对大促大流量业务场景对系统稳定性需求进行优化巩固?
既然时间有限,盲目撒网必然不是最佳策略,需要有针对性地从关键点、薄弱点下手。因此第一步,需要获得全局系统链路现状,包括关键外部依赖、重点业务影响等,找到整体保障的核心关注点。接下来进一步分析大促业务数据,得到除系统本身以外的变量干扰因素。以这两者为基础,集中围绕金字塔模型中系统监控、规划容量、应急响应、测试和复盘等几个方面需求对系统进行针对性集中保障建设,得到最终保障结果。
至此,基本获得了完整的大促稳定性保障策略方向,按照执行顺序依次是:
- 系统链路&业务策略梳理(System & Biz Profiling)
- 监控(Monitoring)
- 容量规划(Capacity Planning