大促备战中稳定性建设策略与总结

互联网民工蒋大钊

已于 2025-02-12 22:37:26 修改

阅读量494

点赞数 3

分类专栏： # 稳定性建设文章标签： java

于 2025-02-12 22:30:58 首次发布

本文链接：https://blog.youkuaiyun.com/qq_44036439/article/details/145601240

版权

2 篇文章

订阅专栏

之前也专门写过日常稳定性建设的一些策略，传送门 -> 日常稳定性建设策略与总结，本文想专门聊聊大促期间做的一些稳定性保障，顺便记录自己之前实习期间在阿里备战双 11 的一些工作与思考。

接口流量评估、上下游依赖梳理

梳理系统中暴露出去的各个接口，以及每个接口关联的上下游依赖，并且标注各个接口负责人 POC，方便出问题时能够第一时间找到人。
进行整体流量评估，区分会员与非会员用户，流量评估中注意流量扩散，大流量风险的接口需要配置限流策略，同时要注意对下游依赖的压力，下游是否吃得住，自身服务的 DB、Redis 等基建承载能力也要合理评估。

依赖上面的核心接口梳理、上下游依赖梳理

针对核心依赖，大流量场景下出现风险时，可以降级采用备用数据兜底的方案，场景：省钱卡 feeds 展示固定的兜底数据，不用每次都去拉取算法推荐接口实现“千人千面”，这样也不会让用户感知到服务异常
针对非核心依赖，可以提前开启降级开关（前提是每个依赖都配置了 switch 开关），由上游展示约定好的兜底文案，避免影响主流程，场景：省钱卡入口营销文案降级展示为“欢迎开通省钱卡～”