
稳定性
文章平均质量分 80
包括排查问题、故障分析等
bboyzqh
时刻保持好奇心~
展开
-
记一次堆外内存泄漏分析
记一次堆外内存泄漏分析原创 2023-01-01 16:47:37 · 9584 阅读 · 1 评论 -
为什么公司内部服务禁止访问外网?
为什么公司内部服务禁止访问外网原创 2022-02-11 23:46:53 · 11996 阅读 · 1 评论 -
电商大促作战指南
电商大促作战指南、全链路压测原创 2022-02-06 18:00:29 · 3101 阅读 · 0 评论 -
电商大促作战指南之全链路压测
电商大促作战指南、全链路压测、营销原创 2022-02-06 17:50:54 · 5430 阅读 · 0 评论 -
高可用的本质
今天偶尔读到阿里技术发的一篇文章《高可用本质》,觉得写得不错,道出了稳定性的本质,特意总结一下。风险期望值表示风险潜在的危害程度,其组成部分和计算公式如下图所示:根据上述定义,系统若想达到高可用,需要不断地降低风险的总期望值,即从四个维度来考虑:减小风险数量、减小风险变故障概率、缩短影响时长和减小故障影响范围,同时由之而总结的高可用架构设计的7大核心原则如下图所示:上述的原则已经足够指导我们系统的稳定性建设了!参考:高可用本质:https://mp.weixin.qq.com/s/CkFHTux原创 2021-02-22 20:33:58 · 212 阅读 · 2 评论 -
升级阿里云RDS(关系型数据库服务)实例报 com.mysql.jdbc.exceptions.jdbc4.CommunicationsException 问题排查
文章目录现象问题分析与结论解决方案现象目前营销数据库使用的是阿里云 MYSQL 数据库,近期需要支持 DBA 对阿里云 RDS 进行升级,升级公告如下:凌晨 5 点 10 分进行升级后开始日志报错,错误信息如下:问题分析与结论一般出现 duridCommunicationsException 原因是由于连接池获取已经失效的连接导致。从 mysql 上来说:Mysql服务器默认的“wait_timeout”是8小时(也就是默认的值默认是28800秒),即一个connection空闲超过8个小原创 2021-02-10 22:17:38 · 483 阅读 · 1 评论 -
2020年12月8号营销mrc应用内存突然上涨并导致系统OOM
文章目录背景解决问题过程事后分析背景12.08号中午营销mrc应用突然出现内存持续上涨,由开始的67%上升到85%左右(监控如下),好在上升过程比较慢,果断地重启解决了问题。解决问题和分析问题的过程如下。解决问题过程mrc是营销的底层应用,主要偏规则计算,共6台机器(2个集群下,且集群流量是相互隔离的,如上层hipc集群的流量不会请求到k8s集群机器),6台机器同时内存持续上升,参考示意图一。因当天中午是大促,考虑到一个集群下只有3台机器,怕重启一台过程中,其他两台承受不住大促的流量,开始不敢原创 2021-02-10 16:30:06 · 193 阅读 · 0 评论