- 博客(165)
- 收藏
- 关注
原创 夜莺监控新版,中心端连不通的时序库也可以告警了
本文介绍夜莺新版本的一个重要更新,支持在中心端无法连通的时序库的告警。这个版本的更新增强了夜莺的灵活性和可用性,尤其是在复杂网络环境下的应用场景。希望大家能在实际使用中体验到这个新功能的便利。
2025-03-31 10:38:27
844
原创 夜莺监控 v8.0 新版通知规则 | 对接飞书告警
夜莺监控 v8.0 版本抽象了通知规则的概念,本文讲解在新版通知规则里如何对接飞书,发送飞书告警,既可以支持普通飞书消息也可以支持飞书卡片消息。
2025-03-17 10:48:18
384
原创 夜莺监控 v8.0 新版通知规则 | 对接企微告警
夜莺监控v8.0版本引入了新版通知规则,可以很方便对接钉钉、企微、飞书,本文介绍如何对接企微告警
2025-03-13 14:45:52
604
原创 夜莺监控 v8.0 新版通知规则 | 对接钉钉告警
夜莺 v8 从 beta7 版本开始,抽象了通知规则的概念,本文介绍如何使用新版通知规则对接钉钉通知
2025-03-07 16:03:05
771
1
原创 夜莺监控巨大革新:抽象出通知规则,增强告警通知的灵活性
夜莺监控在 v8.beta7 中做了一个巨大革新,抽象了一个通知规则的概念,来增强告警通知的灵活性,解决多年来的夙愿。
2025-03-06 11:03:01
939
原创 夜莺监控 - 边缘告警引擎架构详解
夜莺类似 Grafana 可以接入多个数据源,查询数据源的数据做告警和展示。但是有些数据源所在的机房和中心机房之间网络链路不好,如果由 n9e 进程去周期性查询数据并判定告警,那在网络链路抖动或拥塞的时候,告警就不稳定了。所以,夜莺引入了边缘告警引擎:n9e-edge。n9e-edge 进程部署在边缘机房,和边缘机房的时序库部署在一起,由 n9e-edge 负责边缘机房的告警判定工作,这样整个架构就稳定的多了。
2025-02-25 12:01:17
889
原创 Prometheus 历史峰值看不到了,这监控不准啊
Prometheus 生态的 step 参数是一个很重要的概念,对于监控数据的查询有着重要的影响。大部分情况下,用户不需要关心这个参数,因为监控系统会自动计算 step,以保证查询效率和数据展示的合理性。但是如果你想看原始数据,或者想了解监控数据的采集频率,那就需要了解 step 参数的含义,以及如何手工指定 step 参数啦。
2025-02-24 11:03:13
449
原创 是时候解决告警事件数据孤岛问题了
大家有没有发现,随着公司发展,慢慢引入了越来越多的监控、可观测性的系统,云上的、云下的,开源的、商业的,通用的、特定产品的,导致告警事件分散在非常多的地方,形成一个一个的数据孤岛。比如下面这些监控系统,你们应该不止用了一个吧:上图中有些系统你可能会困惑,比如 OceanBase,明明是个数据库,为啥出现在这里。因为 OceanBase 自己内置有自己的监控能力,没有复用 Prometheus 之类的通用监控系统,这就是上面我提到的特定产品的监控。
2025-02-18 12:10:11
655
原创 夜莺监控发布 v8.beta5 版本,优化 UI,新增接口认证方式便于鉴权
夜莺监控发布v8.beta5版本,重点优化了告警规则配置的UI,同时支持用户token认证鉴权方式,简化接口调用,便于和公司内部系统对接
2025-02-17 11:03:18
989
原创 告警事件如何与 CMDB 打通附加更多元信息
告警事件产生之后,会带有一些 labels、annotations、description 等信息,有时这些信息不够规整需要二次处理,有时这些信息不够丰富需要附加更多信息,才方便 SRE 等 OnCall 人员快速定位、解决问题。具体应该如何做?本文会分享一些思路,希望对大家有所帮助。
2025-02-10 11:20:13
766
原创 Grafana 统一可视化了,告警如何统一?
对于大部分公司,通常都不止一套监控、可观测性相关的系统,云上的、云下的,开源的、商业的,指标的、日志的、链路的,各个系统体验不同,权限难管,如何统一化并为各个团队赋能,是很多技术负责人极为头疼的问题。
2025-01-20 15:26:54
1191
原创 夜莺监控突破一万 star,这是汗水,也是鞭策
夜莺监控项目在上周突破了一万 star,算是一个小小的里程碑。本文聊聊做开源这几年的心路历程。一些小小的感悟。
2024-12-31 15:12:35
921
原创 夜莺 v8 第一个版本来了,开始做有意思的功能了
夜莺 v8 发布了第一个 beta 版本,增强了机器告警的灵活性,支持阈值的覆盖,也简化了部署,一个二进制即可拉起服务,方便快速部署测试,另外也支持了 webhook 的 proxy 方便内网环境发送告警
2024-12-26 11:54:48
1056
原创 OpenTelemetry 101:面向 IT 领导者和爱好者的非技术指南
OpenTelemetry是一个开源可观测性项目,包含一组 API、库、代理和埋点标准。使用 OpenTelemetry,开发人员可以收集和处理来自应用程序、服务和系统的遥测数据。为了理解这意味着什么,我们首先看一下两个核心概念:可观测性和遥测。OpenTelemetry 是一个开源项目,旨在标准化遥测数据的收集和处理。通过提供一组 API、库和代理,OpenTelemetry 使开发人员能够收集、处理和可视化来自应用程序、服务和系统的遥测数据。
2024-12-05 09:47:26
916
原创 从仪表盘探索 MongoDB 关键指标
通过每个 panel 的研读,我们对 MongoDB 的监控知识又前进了一步,要想彻底弄懂还需要研究 MongoDB 的文档和原理。本文的探索希望给大家一些学习这类知识的方向。
2024-12-02 18:14:36
1090
原创 Zabbix 和 Prometheus 选型对比
Zabbix 和 Prometheus 无疑是开源监控领域最厉害的两个扛把子,在企业落地选型时应该如何做选择呢?本文尝试从数据采集、存储、告警、可视化、事件分发等多个方面做一个对比
2024-11-07 15:33:00
629
原创 手把手教程:使用 Fluentbit 采集夜莺日志写入 ElasticSearch
Fluentbit 是非常流行的日志采集器,作为 Fluentd 的子项目,是 CNCF 主推的项目,本文以夜莺的日志举例,使用 Fluentbit 采集,并直接写入 ElasticSearch,最终使用 Kibana 查看。借此实践过程,让读者熟悉 Fluentbit 的使用。
2024-11-05 11:04:56
1014
原创 VictoriaMetrics 中文教程(10)集群版介绍
VictoriaMetrics 集群版也是开源的,但是维护更复杂,毕竟组件更多。如果数据量低于每秒一百万个数据点,建议使用单节点版本,而不是集群版本。单节点版本可以完美地适应 CPU 核心数、RAM 和可用存储空间。与集群版本相比,单节点版本更易于配置和操作,因此在选择集群版本之前请三思。VictoriaMetrics 集群版相比单机版,更适合大规模的监控数据存储和查询。但是,集群版的维护和运维成本更高,需要更多的硬件资源。在选择集群版之前,请三思。
2024-10-29 07:44:10
812
原创 夜莺监控的机器支持挂载到多个业务组了
夜莺开源项目于国庆前夕发布了 v7.4.1 版本,修复了一些 bug,同时也带来了一些新功能。其中最重要的一个功能是:机器支持挂载到多个业务组了。本文将介绍几个重要的变更。
2024-10-08 14:54:34
971
原创 Datadog 监控最佳实践 | 收集正确的数据
本文是Datadog“高效监控”系列的第一篇,后面还会有第二篇《》和《监控数据有多种形式 - 一些系统不断地输出数据,而另一些系统仅在罕见事件发生时才产生数据。有些数据主要用于识别发现问题、有些数据主要用于调查问题。更宽泛地说,监控数据是观察系统内部运行情况的必要条件。无论您的监控数据采用何种形式,统一的主题都是:收集数据很便宜,但在需要时没有获得数据可能会很昂贵,因此您应该监测一切,并合理地收集所有有用的数据。本系列文章源自我们为客户监控大型基础设施的经验。它还借鉴了和的工作。
2024-09-14 09:57:01
643
原创 服务稳定性保障的五大误解
服务稳定性保障的五大误解》总结了服务稳定性保障中常被混淆误解的五个概念,可能还有更多的概念未被清晰的定义,希望以此为鉴,大家一起推动服务保障领域的标准化、量化和最佳实践。后面还将谈谈稳定性保障中常见的错误做法,敬请期待,也欢迎交流探讨。
2024-09-06 15:27:49
986
原创 企业分享 - 益丰大药房监控升级之路
益丰大药房是全国大型药品零售连锁企业(中国沪市主板上市连锁药房),专注医药零售行业23载, 市值稳居国内上市连锁药店前列/中国上市公司500强。益丰有体量庞大的研发运维团队,有体量庞大的 IT 设施和服务,为了能够更好的监控这些设施和服务,益丰在多年前就开始建设监控系统,本文分享益丰的监控升级之路,来自益丰的运维团队,希望对你有所启发。
2024-09-04 17:16:38
1158
原创 无需推翻既有的建设,这个可观测性产品思路清奇
详情中可以看到,商品实时下单量这个关键业务指标暴跌,在某些时刻直接跌到0了,这是一个明显的故障,用户可以在暴跌的位置点击鼠标,就可以看到那些相关的服务是否健康,不健康的直接红色标注,用户就可以快速定位到故障服务,比如这里明显看到。Flashcat 的做法,主打一个知识沉淀复用,平时用户定位故障时,先看什么数据,再看什么数据,都可以在 Flashcat 里沉淀下来。云上的、云下的,开源的、自建的、商业的,网络的、服务器的、数据库的、中间件的、应用的、业务的,指标的、日志的、链路的、事件的。
2024-09-03 11:26:39
1016
原创 海大集团的可观测平台建设实践
海大集团是以科技为主导的中国农业龙头企业,1998年成立于广东广州,目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链,在全球拥有分子公司逾600家、员工达4万人,位列2023中国企业500强第238位、2023中国民营企业500强第87位。凭借亮眼的业务表现和品牌影响力,海大集团连续5年榜上有名,上榜2024年《福布斯》全球企业2000强第1415位。
2024-08-30 11:58:18
826
原创 Prometheus 告警恢复时,怎么获取恢复时的值?
Prometheus 告警事件中的$value表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的$value仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢?不废话,先说原理。
2024-08-29 17:19:32
999
原创 关于告警,要想做好,从这些方面着手
现实情况中很多监控工具发送出来的告警只有光秃秃的有限的几个字段,比如机器名、监控项、阈值,如果能对接外部元数据(比如CMDB),对告警的字段进行扩充,那就可以利用扩充出来的字段,更自动化的分发告警,以及在处理故障的时候,让工程师能快速判断告警的影响面和严重程度。:在告警处理的过程中,可以随时把相关的人员拉进来协同(通常,把相关人员拉齐,问题就解决了一半,如果能自动创建 warroom 就更好了),添加协同人时需要准确及时的通知到对方,并把告警处理的过程和时间线,清晰的保留下来,供协作方快速了解全貌。
2024-08-28 15:01:37
844
原创 SRE 必备知识 - Kafka 探秘之零拷贝技术
如果你了解过 Kafka,那么它用到的一个性能优化技术可能会引起你的注意 – 操作系统的零拷贝(zero-copy)优化。零拷贝操作可以避免对数据的非必要拷贝,当然,并非是说完全没有拷贝。在 Kafka 的场景下,操作系统可以从 page cache 拷贝数据到 socket buffer,直接绕过 Kafka broker 这个 Java 程序。这可以节省一些额外的拷贝,节省一些用户态和内核态的切换。让我们看一个例子。
2024-08-27 11:36:37
599
翻译 使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标
SpanConnector 是 OpenTelemetry Collector 中的一个组件,允许您从跨度(Span)数据中获取指标。当您拥有强大的跟踪功能但您的语言或框架缺乏原生指标支持时,这尤其有用。将跟踪(Trace)转换为指标可以提供有关系统性能和运行状况的宝贵见解,而无需单独的插桩埋点。这种统一的方法创建了更全面的可观测性视野,并减少了管理两个不同埋点系统的开销。
2024-08-26 11:46:56
118
原创 9k star 监控系统,100% 国产,推荐了解
Zabbix 是资产管理式,监控数据存在数据库中,擅长设备监控,不擅长微服务和云原生环境的监控;推出时间较早,社区活跃度较高Prometheus 是云原生环境的监控利器,支持多维度的指标数据,自研存储引擎,但是告警引擎是单点,使用配置文件管理规则,缺少权限化管理的 WebUI,如果把监控能力开放给公司所有团队,让各个团队自服务,就比较困难随着云的发展,Zabbix 感觉是依托于存量市场,而 Prometheus 是未来的大势所趋。那 Prometheus 的缺点应该如何解决呢?
2024-08-20 10:54:43
1180
转载 可观测性与传统监控的区别和联系
可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问题的能力。
2024-08-14 17:59:12
114
原创 连锁门店如何做可观测性?
有了观测能力,保障连锁门店IT服务的稳定性还差最后一步,就是建立起相应的稳定性保障流程。让制度来驱动保障能力落地。Flashduty 就是针对性的解决这个环节的问题。Flashduty可以收集观测系统、灭火图、北极星以及各个告警源的告警,对所有告警事件做聚合降噪、优先级划分、值班排班、告警升级等设置。让整个保障流程通过告警驱动运行起来,实现用机制来保障稳定性的效果。各家连锁门店企业可能因业务的特点和已有观测能力的不同,建设的侧重点有所不同。和客户一起实施的过程中,Flashcat还实践了包括。
2024-08-14 09:46:31
632
原创 Kubernetes 中必备的 10 个告警处置方法
本文翻译自:https://sematext.com/blog/top-10-must-have-alerts-for-kubernetes/运行 Kubernetes 集群,显然不止是启动,还需要持续监控,以确保 Kubernetes 中的服务能正常运行。不过,您不想整天盯着一堆 Kubernetes 仪表板(即便仪表板再多么美观)。您希望使用适当的警报来设置 Kubernetes 警报,对吗?借助 k8s 警报,您将快速发现 Kubernetes 集群中的问题,并希望也能快速修复它们。
2024-08-13 11:50:30
766
原创 夜莺监控告警规则里的 “仅在本业务组生效” 具体是怎么个逻辑?
对于某个告警规则(假设其归属业务组 A),其 promql 为 cpu_usage_idle < 5 告警,夜莺的告警引擎就会拿着这个 promql 去查时序库,比如查到 10 台机器的 cpu_usage_idle 数据都小于 5 ,于是,时序库返回 10 条数据,进而产生 10 条告警。但是,有的时候,promql 可能会写一些聚合函数,导致 promql 查询的结果中不包含 ident 标签,此时,夜莺就无能为力了,不知道时序库返回的这个数据属于哪个机器,也就无法根据机器的归属关系判断是否发告警了。
2024-08-13 07:57:54
296
原创 2024 年了,IT 运维监控系统都有哪些推荐?
大浪淘沙,2024 年的今天,市面上很多监控系统慢慢淡出了大家的视野,而一些新的监控系统也逐渐崭露头角。今天我们就来看看 2024 年的当下,哪些 IT 运维监控系统最值得关注。
2024-08-12 15:04:38
907
原创 运维 + AI,你得先搞懂这些
Semantic Kernel和LangChain都是为了简化AI应用的开发,但它们的侧重点不同。Semantic Kernel更注重技能的定义和管理,而LangChain则更侧重于大型语言模型的组合和调用。选择哪个框架取决于具体的应用场景和需求。在我们的场景里我们更多的是考虑使用semantic kernel的方式来构建,不是说langchain不好,只是langchain的代码侧抽象的东西太厉害,本身架构也比较重,对于后期开发的运维和迭代成本比较高,我们现在的体量还太小,感觉自身玩不太动。
2024-08-09 18:02:45
1313
原创 在 Kubernetes 中部署 Alertmanager
AlertManager 是一个开源警报系统,与 Prometheus 监控系统配合使用。本博客是 Prometheus Kubernetes 教程系列的一部分。在本指南中,我将介绍 Alertmanager 设置及其与 Prometheus 的集成。注意:在本指南中,所有 Alert Manager Kubernetes 对象都将在名为 monitoring 的命名空间中创建。如果使用不同的命名空间,则可以在 YAML 文件中替换它。
2024-08-06 14:49:13
773
原创 Grafana Loki 架构组件详解
Grafana Loki 是一个开源的日志收集系统,其功能是收集、存储和查询日志。Grafana Loki 压缩日志并将日志存储在块中,并将它们存储在文件系统或 AWS S3 等后端存储中。块是一个压缩文件,其中包含基于日志卷的日志条目,因此当块大小达到其大小限制时,它会将日志存储在另一个块中。每当存储一个块时,它都会为每个块创建一个索引。索引不包含日志的内容,它只包含时间戳、块的标签和块的位置。日志的默认保留期限为24小时,最短期限为1小时,最长可延长至30天。
2024-08-01 14:33:45
1433
原创 在 Kubernetes 里部署 JMX Exporter 监控 Java 应用
在这篇博客中,我们介绍了在 Kubernetes 集群上实现 JMX Exporter 的步骤。此外,在导出器 Configmap 中,您可以为 JMX Exporter 添加其他过滤器设置,以收集其他指标。原文:https://devopscube.com/jenkins-architecture-explained/译文:https://flashcat.cloud/blog/jenkins-architecture-explained/译者:巴辉特。
2024-07-31 14:54:51
537
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人