
监控
文章平均质量分 92
运维开发故事
这个作者很懒,什么都没留下…
展开
-
夜莺自定义告警模板
以上就是整体的实现了,这只是领导根据领导的需要做的,每个团队的需求不一样,实现方式肯定也不通,这里只是抛砖引玉。个人建议使用webhook比较好一点,因为可以比较灵活的增加其他的功能,比如告警认领,比如告警抑制,比如告警转发等。另外,最近刚换工作没多久,写的文章少了,但是对技术的热爱并没有减少。最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「运维开发故事。原创 2024-01-07 21:53:57 · 1596 阅读 · 0 评论 -
【夜莺监控】管理Kubernetes组件指标
以下指标来自阿里云 ACK 官方文档,我觉得整理的比较全,比较细,就贴了一部分。想要了解更多的可以到官方网站去查看。指标类型说明CounterWorkqueue 处理的 Adds 事件的数量。GaugeWorkqueue 当前队列深度。Histogram任务在 Workqueue 中存在的时长。Gauge内存使用量,单位:字节(Byte)。Gauge内存使用率=内存使用量/内存资源上限,百分比形式。GaugeCPU 使用量,单位:核(Core)。Gauge。原创 2023-05-30 18:24:33 · 379 阅读 · 0 评论 -
【夜莺监控】从日志中提取指标的瑞士军刀
对于在一个脚本中需要重复使用的表达式,可以将其定义为一个变量,后续可以直接使用变量。这是开发中常用的手段。相比于谷歌的mtailcategraf对mtail做了一些优化,可以更好的处理多日志的问题。而且 categraf 本身集成了很多插件,都可以统一使用它实现。另外,还是相同的问题,假设插件开启比较多,categraf 的具体性能如何以及会不会影响主机的整体性能,这还有待研究。最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「运维开发故事。原创 2023-05-30 18:03:32 · 442 阅读 · 0 评论 -
【夜莺监控】海王——Categraf
Categraf 是一个监控采集 Agent,类似 Telegraf、Grafana-Agent、Datadog-Agent,希望对所有常见监控对象提供监控数据采集能力,采用 All-in-one 的设计,不但支持指标采集,也希望支持日志和调用链路的数据采集。相比于其他采集器,Categraf 的优势在于:支持 remote_write 写入协议,支持将数据写入 promethues、M3DB、VictoriaMetrics、InfluxDB指标数据只采集数值,不采集字符串,标签维持稳态结构。原创 2023-05-30 17:42:33 · 1322 阅读 · 0 评论 -
【夜莺监控】告警管理,香!
目前夜莺能够比较齐全的实现告警规则的管理,告警渠道分发以及告警消息抑制以及升级,而且 FlashDuty 可以接入不同的集群告警,在大部分企业中以及够用了。只是在测试告警自愈的时候,我没有测试成功。应该是跟我的环境有关系:N9e 整体模块是使用的 Helm 部署到 K8s 中的ibex-server 端却是以二进制的形式直接部署在主机上的不过具体的原因没有排查出来,可用的排查信息太少了。最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「运维开发故事。原创 2023-05-30 15:24:44 · 492 阅读 · 1 评论 -
【夜莺监控】初识夜莺,还是强!
可观测性是大部分中小公司比较头疼的问题,主要表现以下几个方面:需要不同的开源软件来组装以实现不同的功能,比如使用 Skywalking 实现链路监控,使用 ELK 实现日志收集监控,使用 Grafana+Prometheus 来实现指标监控。每个开源软件背后都是独立的一套体系,它们之前是相互独立的(Grafana 全家桶已经实现组合)。数据孤岛,链路、日志、指标各玩各的,没有建立联系。目前市面上的解决方案要么是商业化产品,要么是自研。本文的主角其实也没有做大一统。原创 2023-05-30 15:11:25 · 686 阅读 · 0 评论