- 博客(111)
- 收藏
- 关注
原创 root Agent变更中的继承问题
短期内 有 两个 因为 继承问题 导致 root agent 升级中出现的case。2.继承了一些 进程数限制等。
2023-04-14 10:26:16
208
原创 sentinel介绍
来源:阿里开源的分布式系统流量控制系统适用:java编写的程序功能:限流(单机)/熔断/系统自适应流量控制/访问控制/网关流控/集群流控/热点参数流控基本工作原理:对于每个资源会自动创建一个Entry的对象,对象的作用有:1)流控规则;2)存储资源的情况(RT、调用链、QPS、线程数量、来源信息等);3)统计各个指标的情况(判断是否触发流控规则,并返回是否放行)被定义的资源被调用前都会在它的Entry对象中被统计,根据统计的结果来判断是否返回异常;比如最简单是通过try…catch…来开启流控
2020-06-08 18:48:53
846
原创 java连接Mysql报错介绍
1、Can’t call commit when autocommit=true:出现此问题的原因在于,当连接的autocommit是true,即没有开启事物,此时此连接调用conn.commit()时会报错。java.sql.SQLException: Can't call commit when autocommit=true at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:935) at com.mysql.j
2020-06-02 19:55:14
1726
原创 Jenkins运维优化
作者:焦振清时间:2017-01-051,/etc/sysconfig/jenkinsJVM性能优化:JENKINS_JAVA_OPTIONS=”-Djava.awt.headless=true -Xms10240m -Xmx10240m -XX:MaxNewSize=1024m -XX:MaxPermSize=1024m”2, systemctl enable jenkins.se...
2020-02-04 13:41:29
733
原创 故障定位能力建设
作者:焦振清时间:2017-01-12对于线上服务故障,作为运维工程师来讲,应对措施建议按照如下顺序进行:预防:控制故障的影响范围,从全局降为局部,如地域,功能维度止损:通过执行预先定制的预案,尝试快速恢复服务定位:通过流程化的手段,快速寻找问题的原因从定位角度讲,我们需要建立以下能力,从而提升定位的效率:所有主机的存活状态,故障主机的特征分析所有服务的存活状态,故障服务/...
2020-02-04 13:40:38
636
原创 在线关闭swap
作者:焦振清时间:2017-07-23服务运行期间,是否可以关闭系统的swap?1,执行swapoff -a后,swap分区逐步减少2,等待一段时间后,swap分区会彻底关闭3,单机可以执行该操作,进行关闭,那么集群是否可以再同一时间进行该操作呢?最好别这样做,因为这样会造成短期内,集群所有机器的CPU都飙升一个核心,对系统压力可能会产生较大的影响...
2020-02-04 13:38:35
4311
原创 nginx的日志格式标准
作者:焦振清时间:2017-11-08相信互联网的从业人员,或多或少都会接触access_log进行一些信息的提取和分析,那么如何高效的达成目标,今天我就将业务线的实践分享给大家。虽然我很羡慕那些能够把access_log分析命令写得足够长的人,但我并不建议在线上依然保持如此原始的方式,通过使用格式化的日志格式,我们会获取以下收益:日志需求分析标准化日志需求分析工具化|插件化...
2020-02-04 13:37:15
708
原创 机器监控项添加建议
作者:焦振清时间:2017-11-08如何解决机器监控遗漏的问题?想必是每一位运维同学都会面临的问题。太多的机器监控内容,可能会产生无效的报警,对生活造成一定影响;太少的机器监控内容,可能会无法及时发现异常,对服务稳定性造成影响;合理的机器监控内容,较高的报警准确度,虽然美好但却需要长期积累;因此,提供一套有效的机器监控标准,并持续优化标准的内容,从而形成良性循环,提高运维效率就...
2020-02-04 13:32:38
428
原创 【转载】Best Practices Availability Checklist
来源:转载时间:2017-11-08Application designAvoid any single point of failure. All components, services, resources, and compute instances should be deployed as multiple instances to prevent a single poin...
2020-02-04 13:31:33
408
原创 Google的基础构架体系
作者:焦振清时间:2017-11-08Borg:分布式任务管理系统;Borgmon:强大的监控报警系统;BigTable:分布式Key/Value存储系统;Google File System:分布式文件系统;PubSub:分布式消息队列系统;MapReduce:分布式大数据批处理系统;F1:分布式数据库;ECatcher:日志收集检索系统;Stubby:Google的RP...
2020-02-04 13:23:47
1941
原创 【转载】C&C控制服务的设计和侦测方法综述
作者:转载时间:2017-11-08这篇文章总结了一些我在安全工作里见到过的千奇百怪的C&C控制服务器的设计方法以及对应的侦测方法,在每个C&C控制服务先介绍黑帽部分即针对不同目的的C&C服务器设计方法,再介绍白帽部分即相关侦测办法,大家来感受一下西方的那一套。这里的白帽部分有一部分侦测方法需要一些数据和统计知识,我也顺便从原理上简单讨论了一下用数据进行安全分析的方法...
2020-02-04 13:22:52
699
原创 【转载】DevOps Checklist
作者:转载时间:2017-11-08DevOps is the integration of development, quality assurance, and IT operations into a unified culture and set of processes for delivering software.Use this checklist as a startin...
2020-02-04 13:19:25
612
原创 【转载】Resiliency checklist
作者:转载时间:2017-11-08Designing your application for resiliency requires planning for and mitigating a variety of failure modes that could occur. Review the items in this checklist against your applica...
2020-02-04 12:57:07
765
原创 【转载】Scalability checklis
作者:焦振清时间:2017-11-08Service designPartition the workload . Design parts of the process to be discrete and decomposable. Minimize the size of each part, while following the usual rules for separati...
2020-02-04 11:51:07
432
原创 Linux命令学习模板
作者:焦振清时间:2017-11-20日常工作中,对于之前没有接触过的命令,如何快速有效的学习,每个人可能都有不同的思路,今天,介绍一种比较通用的方法,能够确保大家在短时间内快速掌握一个命令的常用使用方法,并能够快速应用在工作中第一部分:命令的用途说明第二部分:单个参数的用法和使用截图第三部分:组合参数的用法和使用截图第四部分:实际工作中常见的场景第五部分:注意事项(对资源的消耗...
2020-01-20 15:40:12
182
原创 运维工作中常见的一些定律
作者:焦振清时间:2017-11-20以下是我在工作中积累的,和运维工作相关的一些定律,接下来,我会对各个定律分别展开进行阐述,从而加深大家的理解一万小时定律,要在任何领域成为大师,一般需要约10年的艰苦努力墨菲定律,如果事情有变坏的可能,不管这种可能性有多小,它总会发生海恩法则,每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患因果连锁理论,一个最...
2020-01-20 15:39:20
307
转载 Linux系统性能分析工具
作者:焦振清时间:2017-11-21转载:http://www.brendangregg.com/linuxperf.html相关资料:PPT下载 视频地址
2020-01-20 15:36:49
146
原创 硅谷来信精华内容分享
作者:焦振清时间:2017-11-21以下是订阅硅谷来信后,个人比较推荐的章节,和大家一起分享第001封信,不做伪工作者第021封信,西瓜与芝麻第081封信,一流的人能够把二流的项目做成一流第134封信,如何在二流大学接受一流教育第141封信,风险意识第156封信,朴素是富豪的专利第162封信,起跑线和玻璃心第280封信,专业和业务的区别...
2020-01-20 15:34:23
706
翻译 【转载】探秘Facebook的交付工程团队和BT部署系统
作者:焦振清时间:2017-11-21【51CTO 4月12日外电头条】Facebook有一套成熟的软件交付流程,平均30分钟可完成一次升级。这套流程的背后有一个交付工程团队,以及一套BT部署系统。这个系统是如何运作的?Arstechnica网站去拜访了一次这个交付工程团队,揭开了这个系统的神秘面纱——Facebook园区入口Facebook总部设立于加利福尼亚州门洛帕克市,这同一片园区...
2020-01-20 15:32:46
643
2
原创 运维工程师被墨菲定律的各种打脸之BXX问题
作者:焦振清时间:2017-11-24下方的表格是对于某个问题的记录,半年内,记录在案的共计21次。大家可能觉得说,不可思议,其实,只要问题不是故障,很多时候,就是这样的。大家想想,家里灯泡坏了,或者水龙头松了,我们一定会立即修理吗,可能是某次夜里摔倒了,或者水龙头漏水了,才会让我们立即进行修复的。这个问题在七月份一共发生了9次,占总量比例为42.86%,且月末有5天连续发生问题,共计发生...
2020-01-20 15:29:33
358
原创 工作交接checklist
作者:焦振清时间:2017-11-22天下没有不散的筵席,在实际工作中,总会有人因为各种各样的原因而离开。那么交接工作如何顺利有序进行,不仅关乎交接期间的稳定性,也关乎到好聚好散以及离职人员和团队今后的口碑,因此交接工作就显得非常重要了。作为团队来讲,应该将交接工作流程化,从而避免在交接工作中可能发生的各种各样的问题。接下来,和大家分享下,我们在实际交接工作中的一些重点内容:服务预案,...
2020-01-20 15:25:55
1517
原创 运维红线
作者:焦振清时间:2017-11-24很多时候,因为刚刚入职的运维工程师,在态度上较为积极,也希望能够帮助团队多分担一些压力,会因为不太清楚什么事情不该做不能做,而出现好心办坏事的情况,那么,我们就将一般情况下运维一定不能做的事情做一个列举:没有审核流程,直接操作线上数据,包括但不限于增删改查。将公司内部信息对外披露,形式包括但不限于博客,会议,学术交流以及GIT等值班人员...
2020-01-20 15:24:09
2424
原创 运维工程师被墨菲定律的各种打脸之DXX问题
作者:焦振清时间:2017-11-24这次分享的一个case是各家公司都会出现的问题,依然,在问题初期,没有得到足够的重视,直至这个问题的严重性被提升到一定程度后,大家开始救火,蜂拥向前。我总在想,早知如此,何必当初呢。问题的起因是一个查询功能没有被进行请求频率限制,如果用户发起的查询操作次数太多的话,会导致数据库CPU使用率飙升,进而影响到这个系统的所有用户(我们不讨论为什么查询请求一定...
2020-01-20 15:22:14
632
原创 运维工程师被墨菲定律的各种打脸之CXX问题
作者:焦振清时间:2017-11-29这次分享的一个case依然是各家公司都会出现的问题,对于第三方依赖的故障,怎么破?当然,很多人会说,高内聚低耦合,为啥要用第三方呢?只能说理论如此。我们所依赖的第三方,或者是垄断性质的,或者是效率提升性的,总之有他存在的理由。换句话说,你自己做,未必能比他更好,未必会得到大家的认可,不然,估计他也就不会存在了。那怎么破呢?不同的公司解法不同,没有标准...
2020-01-20 13:54:10
166
原创 awk
作者:王文勤时间:2017-12-01概述1.1 功能描述AWK是以行为单位对匹配模式的行进行处理的文本分析工作。1.2 通用格式命令行调用:awk [options] ‘pattern {action} pattern {action}’ filename脚本调用:awk [options] -f script.awk filenamepattern默认情况为匹配整行内...
2020-01-20 11:44:49
107
原创 如何彻底杜绝磁盘报警
作者:焦振清时间:2017-12-04说起磁盘报警,相信大家都是一副不屑的眼神,这种事情,还需要专门写一篇文章?哥们你是闲的慌吧。大家不屑的原因是:磁盘报警没什么了不起,只要服务进入稳定状态,各种磁盘报警都经历一次,查漏补缺,以后磁盘报警就很少了,偶尔半夜来几条,也无伤大雅,搞运维嘛,还能没报警呀。那么这种思路违反了一个原则:同样的错误不能犯两次!并且处理问题太过被动,让问题挨个半夜找上门来...
2020-01-20 11:44:09
370
原创 根因分析实践之极限法
作者:焦振清时间:2017-12-07根因分析(RCA)是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征。在实际工作中,最难的部分是什么叫做根本原因,这一点,没有一个可量化的标准供大家参考,因此很多事情的原因是否为根本原因也就无从判断了。和大家分享一个判断是否为根本原因的方法:极限法。第一个例子,DVD光盘容量为什么不能是无限大的?因为光盘上的...
2020-01-20 11:41:41
1344
原创 Azure可用性保障最佳实践中文版
作者:王文勤时间:2017-12-101,应用程序设计避免任何单点故障所有的组件、服务、资源以及计算节点都应该部署成多个实例,以此来避免单点故障导致可用性受影响。比如虚拟机资源,同一应用的虚拟机要部署成多实例,当单个实例故障时,服务不受影响。认证机制也要避免单点。将应用程序设计为可以通过配置来使用多实例,并将不能自动化的平台改造成能自动检测失败,并将请求跳转到没有失败的实例上。...
2020-01-20 11:38:25
323
原创 我是如何做到五年间电话不漏接的
作者:焦振清时间:2017-12-12应急响应 ,是所有运维工程师都需要面对的问题,每当出现了重大服务故障之时,都需要负责人能够立即响应,并组织团队成员快速恢复服务,在这个时候,运维团队一旦联系不到,那对于服务来讲就是灾难性的后果,而对于运维团队来讲,也就彻底失去大家的信任了。因此,做到实时的电话响应,就是一件非常重要的事情。也会有这样的观点,我只要有足够的责任心,就不会漏接电话的,其实不...
2020-01-20 11:34:10
818
1
原创 基于Jenkins分布式调度管理公有云多租户的架构浅谈
作者:李佩京时间:2017-12-28基于Jenkins分布式集群管理公有云多租户的架构浅谈Jenkins简介Jenkins最开始被称为Hudson,它在持续集成领域的市场份额居于主导地位,是什么使Jenkins如此成功呢?首先,Jenkins拥有良好的扩展性,通过插件能够解决各类场景。其次,Jenkins的开源社区活跃度非常好。Jenkins分布式构建基于Jenkins的分布...
2020-01-20 11:26:41
823
原创 基于puppet分布式集群管理公有云多租户的架构浅谈
作者:樊帅宇时间:2017-12-29一、架构介绍在此架构中,每个租户的业务集群部署一台puppet-master作为自己所在业务集群的puppet的主服务器,在每个业务集群所拥有的云主机上部署puppet-agent,定时向puppet-master进行汇报从而执行相应任务。foreman单独部署,接收每个业务集群中puppet-master收集到的puppet-agent服务器所报...
2020-01-20 11:14:54
555
原创 跨AZ高可用之Elasticsearch实践
作者:SUNNY时间:2018-01-04AZ,AWS提出的,可用区(Availability Zone),在每个区域(Region)都有多个可用区。AZ之间物理隔离,独立供电,一个AZ故障,不会影响另外一个AZ,但AZ之间是连通,且网络耗时低。简单可以将AZ理解为独立机房或逻辑机房,这样可以利用AZ的隔离性,对业务进行跨AZ部署,实现高可用。本文先是简单介绍了跨AZ服务部署的一些方案,之...
2020-01-20 10:57:53
1449
原创 Puppet核心资源类型浅析
作者:刁冰雪时间:2018-02-02一、核心类型——PACKAGE典型案例说明1、使用latest将软件持续安装为最新版使用yum源安装软件时,package类型提供了两种软件安装的方式,present和latest。使用present参数实现软件安装时,仅确保该软件存在即可,不关注版本,只有该软件不存在时才会进行安装。而使用latest参数实现软件安装时,当软件源中的安装包有版本更...
2020-01-20 10:53:18
595
1
原创 运维书籍推荐
作者:焦振清时间:2018-03-24推荐书单:SRE:Google运维解密高效能人士的七个习惯Kafka权威指南深度剖析Hadoop HDFS
2020-01-20 10:36:22
1252
原创 预案建设-切流量
作者:张胜楠时间:2018-04-11预案是指对潜在的突发事件事先制定的应急处理方案,在运维领域,则是为规避故障或尽快从故障中恢复而制定的方案,其目的是第一时间止损、防止局势进一步恶化,以期最大程度地保障业务系统的可用性。切流量是应对外网故障的有效手段,这篇文章介绍下我们如何建设外网切流量预案。外网切流量实质上是切换流量入口,而流量入口更多的则体现为IP,所以切流量其实说的就是切换IP。...
2020-01-20 10:34:57
845
原创 Hadoop预留磁盘空间问题
作者:焦振清时间:2018-04-12在hdfs-site.xml中设置dfs.datanode.du.reserved的值,磁盘就会有预留空间:<property> <name>dfs.datanode.du.reserved</name> <value>2147483648</value> #2GB ...
2020-01-20 10:30:54
954
原创 常见应用发布方式浅析
作者:齐凯华,王文勤时间:2018-04-12一、部署方式浅析1.滚动部署1.1滚动部署介绍1.1.1 基本概念滚动部署:逐步替换线上应用实例的版本1.1.2 实现方式从LB控制用户到应用实例的请求,如某服务共计10个实例,每次更新两2个实例,则首先从负载均衡上摘除两个实例并更新,升级完毕后在LB中重新接入这两个实例,然后依次升级全部实例。(图1)(图2)(图3)1...
2020-01-19 18:08:48
2313
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人