
监控
文章平均质量分 71
焦振清
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
摆脱无效报警?十年运维监控报警优化经验总结
作者:焦振清运维工程师面试者第一个问题是:需要值班吗?笔者自己也曾经历过月入十万的时期,在那个时候,数个系统同时发布下一代版本,而老系统还需要过渡很长时间,工作量直接翻倍,大家只能勉强应付一线运维工作,团队成员开始陆续离职,而新人又无法在短时间内上手,整体情况不断恶化,持续半年左右才缓过劲来。下面两张截图是我挑选的两个团队一周报警数的对比图,前者的单日报警量最高是 55348 条,后者单日...转载 2019-10-22 14:43:21 · 3383 阅读 · 1 评论 -
最受欢迎的Java web应用服务器之一——Tomcat监控选型及实践
监控选型 Tomcat Manager和Psi-probe是不错的可视化监控工具,能够很好地查看Tomcat状态信息(比如单位时间请求数,线程状态等)。在生产环境中,随着Tomcat实例的不断增加,维护不同实例上的Manager控制台会显得有些繁琐,同时,为了与企业监控系统、运维仪表盘等结合,有必要选择兼容性和适配性更好的监控工具。 如今,企业微服务的流行和CI/CD的强需求性,要...原创 2019-01-07 15:41:42 · 15803 阅读 · 0 评论 -
步步惊心,Zookeeper集群运维“避坑”指南
摘要:京东云一直致力于大集群的稳定性建设,监控系统也经历了多次完善迭代,本文将重点讨论对Zookeeper集群的监控。整体介绍基于京东云丰富的实战经验,我们将陆续分享运维方面的干货,帮助小伙伴们进阶为运维达人,欢迎持续关注。首先带来的是“监控”专题系列。监控专题介绍监控,可以判断服务的健康程度、定位服务问题、透视系统内部状态,是运维工作中极其重要的一环。该系列内容将分享京东云在服务...原创 2018-12-04 14:32:04 · 40138 阅读 · 0 评论 -
Elasticsearch运维宝典——监控实战篇
监控,是服务可用性保障的关键之一。本文从运维角度,对ES服务监控进行了系统性总结,涵盖监控工具选型、监控采集项筛选介绍,最后列举了几个借助监控发现的ES线上问题。 ES监控概览 针对ES进行监控,主要期望解决这几种场景: ES日常服务巡检,帮助运维开发人员及时发现隐患 ES服务异常后,帮助运维开发人员及时发现故障 采集的ES监控指标,帮助运维开发人员迅速定...原创 2018-12-10 15:21:47 · 35229 阅读 · 1 评论 -
你与Kafka监控进阶,只差一个“视角”的距离
Kakfa监控实践监控工具选择实际使用中对比了多种Kafka监控工具,最终选择如下几种工具:Kafka Monitor:这是LinkedIn开源的Kafka核心功能监控工具,并且提供了可视化界面。它可以模拟数据生产并消费,基本上覆盖了黑盒监控大部分指标,包括集群核心功能、数据读写、读写延迟等。使用者使用成本也相对简单,只需对接告警系统即可。如果你的产品用到了Kafka,强烈推荐使用...原创 2018-12-10 15:18:54 · 783 阅读 · 0 评论 -
HDFS监控背后那些事儿,构建Hadoop监控共同体
HDFS监控挑战 HDFS是Hadoop生态的一部分,监控方案不仅需适用HDFS,其他组件如Yarn、Hbase、Hive等,也需适用 HDFS API提供的指标较多,部分指标没必要实时采集,但故障时需能快速获取到 Hadoop相关组件的日志,比较重要,如问题定位、审计等 监控方案不仅能满足监控本身,故障定位涉及指标也应覆盖 Hadoop监控方案...原创 2018-12-21 09:54:35 · 2830 阅读 · 0 评论 -
以小见大,从Kafka Monitor源码解读看如何做好黑盒监控
Kafka Monitor介绍 Kafka Monitor是由Linkedin开源的一款非常优秀的针对Kafka的黑盒监控软件。它通过模拟客户端行为,生产和消费数据并采集消息的延迟、错误率和重复率等性能和可用性指标,来达到黑盒监控的目的。 Kafka的主要概念 在介绍Kafka Monitor功能监控之前,我们先了解下Kafka的几个主要概念: Broker:K...原创 2018-12-06 21:36:57 · 36602 阅读 · 0 评论 -
微服务架构下的监控需要注意哪些方面?
微服务架构带来的变化 微服务架构给IT系统和团队带来了以下显著的变化: 基础设施的升级,需要引入虚拟化(如Docker),现存基础设施也需要与之进行适配; 系统架构的升级,需要引入服务注册(如Consul),服务间的交互方式也需要与之进行适配; 运维平台的升级,建议引入日志收集(如Fluentd),分布式跟踪(如Zipkin)和仪表盘(如Vizceral/G...原创 2018-12-06 21:33:32 · 570 阅读 · 0 评论 -
没有监控完备,何来“剁手”畅快——电商平台监控详解
按《SRE Google运维解密》对监控的划分,监控可以分为“黑盒监控”与“白盒监控”,黑盒监控解决的是“系统哪些功能出问题了”,白盒监控解决的问题是“什么原因导致了上述故障”。通俗来讲——白盒监控可以帮助我们快速定位问题原因,但要知道服务出了什么问题,还需要我们从黑盒监控入手。 黑盒监控 监控对象 电商网站的哪些功能发生故障会使用户认为网站宕机?评价、优惠、库存等功能异常...原创 2018-12-06 21:30:07 · 36877 阅读 · 0 评论 -
从理论到案例,请收下这篇Nginx监控运维干货
Nginx特性 作为Web服务器,Nginx不免要与Apache进行比较。相比Apache服务器,Nginx因其采用的异步非阻塞工作模型,使其具备高并发、低资源消耗的特性,高度模块化设计使Nginx具备很好的扩展性;在处理静态文件、反向代理请求等方面,Nginx表现出很大的优势。 Nginx常见的使用方式 Nginx可以作为反向代理服务器来转发用户请求;并能够在处理请求的过...原创 2018-12-13 14:27:49 · 36538 阅读 · 0 评论 -
机器监控项添加建议
如何解决机器监控遗漏的问题?想必是每一位运维同学都会面临的问题。太多的机器监控内容,可能会产生无效的报警,对生活造成一定影响; 太少的机器监控内容,可能会无法及时发现异常,对服务稳定性造成影响; 合理的机器监控内容,较高的报警准确度,虽然美好但却需要长期积累;因此,提供一套有效的机器监控标准,并持续优化标准的内容,从而形成良性循环,提高运维效率就成为监控平台的责任和义务。我们将各个业...原创 2018-12-04 16:24:19 · 395 阅读 · 0 评论 -
Prometheus插件安装之node_exporter
新增文件:touch /etc/systemd/system/node_exporter.service文件内容如下:[Unit]Description=Prometheus node_exporter[Service]User=nobodyExecStart=/usr/local/bin/node_exporter --log.level=errorExecStop=...原创 2018-12-04 14:36:16 · 6232 阅读 · 1 评论