
稳定性
文章平均质量分 93
个人渣记录仅为自己搜索用
不盈利,只为分享,转载.
找到的原版url的,尽量会贴原版url.
如有版权侵犯,请留言删除.
展开
-
阿里技术专家甘盘:浅谈双十一背后的支付宝LDC架构和其CAP分析(含phil补充)
转自:https://blog.youkuaiyun.com/itfly8/article/details/111027014简介:汤波(甘盘),男,1989/02/21,硕士学历。高中开始编程,热爱技术,深信技术让世界更美好。对前沿技术一直保持饥饿感,热衷于创新和革新,让系统体制更为高效和人性化,也深知一个人强走的快,一个团体强才能走的远。在技术团队建设(团队招聘和组建、梯队梯度建设)、技术栈管理(包含技术选型、技术规范建设、软件体系规划)和项目研发管理(软件工程管理、开发效能和质量管理)方面有着较为丰富的实..转载 2021-03-01 15:56:17 · 2021 阅读 · 0 评论 -
slf4j log 稳定性监控之灰度监控
如何利用error进行稳定性监控,灰度发布监控?1. 完备性.2. 侵入性少.3. 可区分度.1. 通过filter来过滤.2. 通过log的配置和encoder机制来实现3. 加上关键的name(%c 小写的c, 大写的%C, 不建议, 耗时高, %method也不建议, 耗时高) +(http://logback.qos.ch/manual/layouts.html 在logba...原创 2020-05-04 14:49:41 · 275 阅读 · 0 评论 -
技术人人都是监控专家
两套系统(入口,出口结构化监控+结构化异常日志): 1. 行为监控系统,秒级接口异常可视化大盘系统. + 小流量动态化拉长时间维度监控. + 体感监控,重试异常 + 业务异常 + 系统异常. 很难涉及到 指标(基础指标,5个,除去成功率就4个.,绝对值衍生指标例如每个耗时区间的成功,失败量),维度; 同比监控,灰度监控(算法如下). 稳定性极.........原创 2019-08-14 13:28:48 · 403 阅读 · 0 评论 -
如何智能反向修正,自我发现人工智能问题.
做智能提示的时候有个问题困扰了很久.智能提示提示错误,怎么办? 方案一: 给部分用户一个吐槽按钮, "我知道了", "码正确,提示错误." 方案二: 通过用户的异常行为来检查, 反向调研用户....原创 2018-08-08 17:03:22 · 314 阅读 · 0 评论 -
结构化异常日志, 如何做好error日志结构化,便于日志监控过滤.
结构化后,总共三个维度1. 入口来源 链路跟踪和mdc结合2. logger的特定类方法. logger自带属性3. 自己打印在内容里规划化. 来源1. filter里的logger public static String getExceptionCauseLine(Throwable throwable) { Throwable root = T......原创 2019-12-04 12:17:23 · 678 阅读 · 1 评论 -
泛化监控系统_通过埋点和机器学习
投屏问题如何监控.边界1.用户行为是边界 2.代码作为两个边界之间的执行体,就是监控的对象.埋点图任何埋点都整理成图,对应的比例关系在统计层面都是差不多不变的.基于埋点图的统计监控:如果某个埋点数低了,那么就要从哪些没有了下游埋点的埋点中去找对应的问题,假设A埋点后肯定是B埋点. A,B埋点之间只有代码. 那么逻辑上A埋点和B埋点的数量应该是一致的. 或者说除去某些业务异......原创 2020-01-14 22:56:00 · 403 阅读 · 0 评论 -
安全生产 - 稳定性建设的方法论 架构师应该做什么? []
故障原因印象流.1. 代码改动的发布 bug2. 下游依赖 bug.(软件,硬件)3. 稳定性雪崩 3.1下游慢等性能问题导致的雪崩 3.2 mysql 慢查等索引性能问题导致的雪崩.4.本业务机器故障.5. 大促等流量激增导致的雪崩6. 机房迁移.如何避免上述问题? 体感报警,体感监控体系问题定位2/5/15稳定性 问题定位......原创 2018-02-09 18:21:07 · 2182 阅读 · 1 评论 -
[原创] 体感监控,体感报警体系
如何从用户来看监控系统?1. 用户视角法. 梳理用户的每个业务操作步骤,想想这一步有可能出哪些错误.怎么监控. 每个状态机切换的action都会出错.2. 接口体感监控法. 用户失败了会连续重试.体感监控解决什么核心问题? 1. 灰度小流量下的错误监控(服务器级,功能级). 其他小流量场景同样适用. 2. 每次上线回归遗漏掉的核心流程.[量少] (回归自动化测试不是...原创 2019-03-29 11:46:00 · 397 阅读 · 0 评论 -
异常检测-机器学习总结
云原生系统相关的数据采集: 一文带你读懂CNCF Landscape中的Prometheus监控,fluentd日志采集,展示Grafana原理: 基于时间序列的异常检测算法小结<数据挖掘导论一书> 数据挖掘中常见的「异常检测」算法有哪些? by知乎+工具包+源代码+论文 Forecasting: Principlesand...原创 2019-11-25 22:11:16 · 1016 阅读 · 0 评论 -
jvm gc fullgc定位分析
通过抽样拉取堆栈.通过日志分析,我们能发现在ThreadProfileCollector类中LonItem对象,对应Retained Heap Size非常大,Retained Heap Size的意思就是当前对象被GC后,从Heap上总共能释放掉的内存。如下图:...原创 2019-03-04 16:37:17 · 702 阅读 · 0 评论 -
智能硬件监控体系建设
metric体系化介绍,调研: 指标和指标衍生即度量.1.gavaMetrics {counter,gauge,meter,histogram},输入统计数据后,自动出来各种度量维度. 2. metric 2.0 官网 3. Metrics for Spring 4.al1metric [同guava ,counter,gauge,meter,histogram ,增加了 timer ...原创 2018-08-06 15:17:29 · 693 阅读 · 0 评论 -
log error打印汇总; traceId实现 [ slf4j , logback ]
1. error打印汇总. 方式一: 对应的logger,多加个error的 appender 方式二: 增加filter https://logback.qos.ch/manual/filters.html 方式三: 增加新Ilog 和 LoggerFactory.() 封装各方法2. traceId 日志增加 方式一: 利用MDC.put() ,关键是 ...原创 2018-07-03 20:20:49 · 1951 阅读 · 0 评论 -
奇思妙想之 优雅上线之 类级别. 代码即配置.
1. 利用java的热替换机制,做到类级别的优雅停机. 两个类同时存在. 新流量到新类.确保老类的老流量没有后,再删除. Java 类的热替换 —— 概念、设计与实现 使用自己的ClassLoader实现热替2. 然后利用流量保存和重放进行对应代码的测试. 原代码的流量有哪些.这些流量重放,哪怕新代码把老代码都删除了. 1. 线上只记录出口和入口数据. 2. 然后到行记录应用服务器上...原创 2018-05-14 11:23:51 · 348 阅读 · 0 评论 -
稳定性之 监控,报警,定位 偏业务视角,偏数据分析视角,智能定位. 2/5/15 of 安全生产
0. 埋点数据1. 梳理出统计数据2. 从统计维度来定位问题.3. caseByCase定位排查我的其他文章: https://www.cnblogs.com/fei33423/p/7169590.html 稳定性建设的方法论 架构师应该做什么? 偏传统视角.https://blog.youkuaiyun.com/fei33423/article/details/7..............................原创 2018-05-11 14:28:30 · 1010 阅读 · 1 评论