
最佳实践
文章平均质量分 75
焦振清
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
混沌工程落地的六个阶段
作者:焦振清混沌工程六个阶段从笔者所在团队的实践出发,我们将混沌工程总结为六个阶段,并对各个阶段的落地过程加以总结,希望能够对大家落地混沌工程有所帮助。今天主要是抛砖引玉,后续针对每个阶段,陆续会有专门的文章进行介绍。而混沌工程理论相关的部分,大家可以参考由 Netflix 出版的《混沌工程》迷你书。上述各阶段涉及的部门和人员的数量,远远超过了当初的预估,因此该部分成为我们确定顺序...转载 2019-11-13 14:32:28 · 775 阅读 · 0 评论 -
Puppet:维护运行环境一致性的利器
作者:焦振清配置管理工具的定位每次我提到配置管理工具,有些同学就会问类似的问题:容器化时代和Serverless时代,还需要配置管理工具吗?我们先不去讨论容器化之后是否需要配置管理工具,那什么时候容器能够在全球范围达到100%的普及?什么时候AWS仅提供容器而不再提供虚拟机呢?之所以会有如上的问题,根源还在于配置管理工具的定位,到底要解决什么问题?配置管理工具的厂商当然希望你什么事情都...转载 2019-10-25 11:37:09 · 696 阅读 · 0 评论 -
预案三板斧之降级大法
作者:焦振清降级的可行性二八原则二八原则放在电商系统里,大概可以这样解释:电商系统 80% 的收益是由 20% 的基础功能所贡献,而剩下的 20% 的收益则是由 80% 的高阶功能所贡献。在如今全民网购的时代,大家对于在京东上购买一件商品的步骤都不会太陌生,顺序大致如下:打开首页,搜索商品,进入商品详情页,添加购物车,登录,下单,结算,支付,一共八个步骤,分分钟搞定。电商企业为...转载 2019-10-23 09:03:52 · 1173 阅读 · 0 评论 -
跨 AZ 部署最佳实践之 Zookeeper
作者:焦振清跨 AZ 部署是实现服务高可用较为有效的方法,同时也极具性价比。如果实现了跨 AZ 部署,不仅可以消除服务中的单点,同时还可以逐步建设如下能力:服务隔离,灰度发布,N+1 冗余,可谓一举多得。因此,接下来我们会对有状态的开源软件进行一系列的跨 AZ 部署的介绍,本次介绍 Zookeeper。ZK 容错数Zookeeper 有这样一个特性:集群中只要有过半的机器是正常工作的,...转载 2019-10-22 14:44:36 · 5568 阅读 · 0 评论 -
摆脱无效报警?十年运维监控报警优化经验总结
作者:焦振清运维工程师面试者第一个问题是:需要值班吗?笔者自己也曾经历过月入十万的时期,在那个时候,数个系统同时发布下一代版本,而老系统还需要过渡很长时间,工作量直接翻倍,大家只能勉强应付一线运维工作,团队成员开始陆续离职,而新人又无法在短时间内上手,整体情况不断恶化,持续半年左右才缓过劲来。下面两张截图是我挑选的两个团队一周报警数的对比图,前者的单日报警量最高是 55348 条,后者单日...转载 2019-10-22 14:43:21 · 3383 阅读 · 1 评论 -
任务调度系统如何通过隔离提升可用性?
作者:焦振清今天聊的任务调度系统,在开源领域中近似的就是 Ansible 了。Ansible 通过在集群上执行命令解决各类业务问题,从而管理千台规模的集群,自身安装和维护都非常简单,因此得到迅速普及,深受运维人员喜欢。下图就是 Ansible 的典型场景,在 Ansible-Server 上,对一组机器列表下发指定的命令并回收执行结果,从而完成一次任务的执行。在大型的互联网公司中,任务...转载 2019-10-22 14:42:17 · 578 阅读 · 0 评论 -
从美国 FDA 新药审批制度看分级发布最佳实践
作者:焦振清新药临床试验的”黄金标准“美国 FDA 新药审批流程被公认为世界上最完备,最科学的程序。目前的标准是从 1962 年开始实施,被称为是新药临床试验的”黄金标准“。其新药审批流程整体如下图所示,在此,我们重点介绍临床试验阶段的试验规模和试验方法 临床一期实验目标是安全性,允许小范围的人群试验,通常招募 20-100 个健康的志愿者,付钱给他们,让他们服用该药物,严密监测可能...转载 2019-10-22 14:41:04 · 1317 阅读 · 0 评论 -
从云厂商宕机史谈预案建设
作者:焦振清云厂商宕机史限于故障信息的披露涉及到很多环节,因此本文只从网络上摘选一些信息进行罗列,同时,各类故障的占比,也要辛苦大家自己来慢慢挖掘了。AWS 十年宕机史2018 年十大云宕机预案执行优先级当发生服务故障后,应该立即执行哪些预案,预案执行的先后顺序是什么,主要是看预案执行的效果,基于以下因素,不同业务自行决定预案的执行顺序概率优先首先需要考虑故...转载 2019-10-22 14:39:24 · 540 阅读 · 0 评论 -
预案三板斧之限流大法
作者:焦振清限流策略:多维防御 + 纵深防御限流能力限流是针对请求的各种特征,多维防御 + 纵深防御,从而限制流量,实现对服务端资源的合理使用。这里的特征是指一个请求所包含的各种信息,包括但不限于 IP、Header、URI、Cookie 等。常见的限流策略有以下三种(以 Nginx 为例进行说明):限制请求数,意思是请求的次数不能太多 Nginx:http://nginx.o...转载 2019-10-22 14:36:09 · 453 阅读 · 0 评论 -
跨AZ部署最佳实践之Elasticsearch
作者:焦振清跨AZ部署是实现服务高可用较为有效的方法,同时也极具性价比。如果实现了跨AZ部署,不仅可以消除服务中的单点,同时还可以逐步建设如下能力:服务隔离,灰度发布,N+1冗余,可谓一举多得。因此,接下来我们会对有状态的开源软件进行一系列的跨AZ部署的介绍,从Elasticsearch开始。最佳实践首先,我们介绍下Elasticsearch基于跨AZ部署的最佳实践,下图1是一个...原创 2019-07-18 17:31:28 · 1708 阅读 · 1 评论 -
服务部署如何做到高可用?这份“三级跳”秘籍送给你
作者:石文文一个高可用的服务需要从部署、变更、预案、监控、安全等多方面考虑。如何做到99.99%服务高可用的要求,需要各个角色的工程师共同努力。从部署的角度,本文介绍了高可用服务所需具备的规范,案例部分通过对Yum源服务架构的演变让读者更好的理解高可用服务部署,希望对大家有所帮助。高可用部署要求图1 高可用部署(*注:随着服务满足高可用要求的增多,服务的高可用能力就...原创 2019-07-18 15:22:45 · 340 阅读 · 0 评论 -
服务变更如何做到高可用?这份指南请查收
作者:焦振清一个高可用的服务需要从部署、变更、预案、监控、安全等多方面考虑。如何做到99.99%服务高可用的要求,需要各个角色的工程师共同努力。本文介绍了高可用服务在变更方面的经验积累和最佳实践,以及一些配置变更的易错点,供大家参考近期,Cloudflare在更新WAF配置规则时,因其中一个规则包含了正则表达式,导致 Cloudflare 全球机器上的 CPU 使用率峰值达到 100...原创 2019-07-18 15:21:08 · 287 阅读 · 0 评论 -
Azure Best Practices Availability Checklist
Application designAvoid any single point of failure. All components, services, resources, and compute instances should be deployed as multiple instances to prevent a single point of failure from aff...转载 2018-12-12 10:22:46 · 444 阅读 · 0 评论 -
Elasticsearch运维经验总结
版本说明:5.6.4(要严格注意ES及其插件、第三方工具的版本匹配关系)系统负载:(日志集群,日均写入10TB,保留7天)1,出于高可用的考虑,同一个分区的多个副本不会被分配到同一台机器如下截图所示,Index:queries,设置20副本,5分片。这个集群当前有14个可用数据节点,queries的0分区在这14个数据节点上均有且仅有一个副本,剩余的7个副本显示UNASSIGN...原创 2018-12-10 16:38:41 · 20950 阅读 · 4 评论 -
nginx的日志格式标准
相信互联网的从业人员,或多或少都会接触access_log进行一些信息的提取和分析,那么如何高效的达成目标,今天我就将业务线的实践分享给大家。虽然我很羡慕那些能够把access_log分析命令写得足够长的人,但我并不建议在线上依然保持如此原始的方式,通过使用格式化的日志格式,我们会获取以下收益:日志需求分析标准化 日志需求分析工具化|插件化 日志字段含义清晰 离线分析系统统计方法标准...原创 2018-12-10 16:35:40 · 2322 阅读 · 0 评论 -
如何彻底杜绝磁盘报警
说起磁盘报警,相信大家都是一副不屑的眼神,这种事情,还需要专门写一篇文章?哥们你是闲的慌吧。大家不屑的原因是:磁盘报警没什么了不起,只要服务进入稳定状态,各种磁盘报警都经历一次,查漏补缺,以后磁盘报警就很少了,偶尔半夜来几条,也无伤大雅,搞运维嘛,还能没报警呀。那么这种思路违反了一个原则:同样的错误不能犯两次!并且处理问题太过被动,让问题挨个半夜找上门来,也太辛苦了。所以,我和团队的同学提出一个问...原创 2018-12-10 16:36:59 · 1409 阅读 · 0 评论