夜莺监控
文章平均质量分 87
Nightingale | 夜莺监控,一款先进的开源云原生监控分析系统,Prometheus Enterprise Edition,Prometheus企业级版本,隶属中国计算机学会开源发展委员会
夜莺开源监控
Nightingale | 夜莺监控,一款先进的开源云原生监控分析系统,Prometheus Enterprise Edition,Prometheus企业级版本,隶属中国计算机学会开源发展委员会
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
夜莺监控设计思考(五)告警原理和处理流程深度剖析
本文介绍了夜莺监控系统的告警处理流程设计。系统通过告警引擎周期性地查询数据源,根据预设规则生成告警事件。核心流程包括:事件生成(基于PromQL查询)、状态判定(持续异常才触发)、屏蔽检查、事件持久化(分为活跃事件和历史事件)以及通知处理。系统支持两种通知规则关联方式:直接绑定或通过订阅规则筛选。V8版本新增了事件处理器Pipeline,提供更灵活的告警处理能力。整个设计借鉴了Prometheus的思路,同时扩展支持多种数据源和边缘部署场景,通过多级处理和丰富的事件属性/标签,实现了灵活的告警管理能力。原创 2025-10-31 16:17:02 · 478 阅读 · 0 评论 -
夜莺监控设计思考(四)关于机器那些事儿
夜莺监控系统针对机器管理提供了独特的平衡设计:一方面保留了Prometheus生态的标签机制,另一方面针对机器场景增加了业务组和标签的双重分类体系。通过Categraf采集器实现机器信息自动上报、元信息展示(CPU/内存等)和特殊告警功能(失联/时间偏移)。系统支持业务组权限管理,并可将机器标签自动附加到监控指标。仪表盘可基于业务组筛选机器数据,告警规则支持变量配置实现业务组专属告警阈值。这种设计解决了机器服务混部带来的管理难题,同时兼顾了Prometheus生态兼容性。原创 2025-10-29 11:11:30 · 789 阅读 · 0 评论 -
夜莺监控设计思考(三)时序库、agent 的一些设计考量
本文介绍了夜莺监控的设计思路,重点阐述其与时序库和采集器的对接逻辑。夜莺从V5版本开始专注告警引擎功能,放弃自研时序库,转而对接多种数据源。文章分析了PUSH/PULL两种数据采集模式的特点,并解释了开发Categraf采集器的原因:统一各类采集器的体验,满足企业用户需求。最后指出夜莺的核心是告警引擎,Categraf是可选项,但建议用于采集基础指标以获得更好体验。该设计体现了产品定位的精准性和架构的灵活性。原创 2025-10-28 20:24:45 · 858 阅读 · 0 评论 -
夜莺监控设计思考(二)边缘机房架构思考
夜莺监控边缘架构模式解析 本文介绍了夜莺监控在多数据中心网络环境下的边缘架构解决方案。当存在网络链路较差的数据中心(如美东机房)时,可以将告警引擎独立部署为n9e-edge模块,从中心端同步告警规则并在本地进行告警判定。这种架构即使网络临时中断,仍能保证基本告警功能,同时不影响告警信息通过外网推送。文章还预告了下期将探讨夜莺监控在时序存储和agent设计方面的考量。原创 2025-10-16 19:52:51 · 393 阅读 · 0 评论 -
夜莺监控设计思考(一)整体定位、架构设计、单进程多进程选择、高可用设计
摘要:夜莺监控定位为告警引擎,统一管理多数据源(如Prometheus、MySQL等)的告警规则,通过事件Pipeline实现告警处理与通知。相比Grafana侧重可视化,夜莺专注告警治理,支持规则Relabel、事件丰富等功能。其核心架构包含无状态WebAPI(配置管理)和有状态alert模块(规则执行),采用单进程设计平衡部署复杂度与维护性,通过数据库心跳实现高可用。后续将探讨跨机房的边缘架构方案。原创 2025-10-14 09:53:07 · 706 阅读 · 0 评论 -
夜莺监控新版表格配置图文讲解
本文详细介绍了夜莺监控8.3版本新增的表格功能配置方法,通过图文方式演示了如何创建机器列表监控仪表盘。文章首先展示最终效果,包含变量筛选和多指标展示功能;随后逐步讲解变量配置(数据源和查询类型)、原始数据指标选择、表格基础配置(数据转换和字段隐藏)以及字段覆盖配置(不同可视化样式)。该方法同样适用于MySQL、Redis等监控对象的SLI数据展示,帮助用户快速发现异常实例。文末还提供了相关配置的JSON文件参考。原创 2025-09-01 15:54:58 · 1262 阅读 · 0 评论 -
开源夜莺里如何引用标签和注解变量
摘要: 夜莺监控是一款专注于多数据源告警的开源项目,支持Prometheus、ElasticSearch、MySQL等数据源,解决传统告警方案(如Prometheus)在规则维护、多实例管理、日志告警等方面的痛点。其核心架构包括Web交互模块和告警引擎,通过告警规则、屏蔽规则、通知规则等实现事件处理与通知分发。夜莺支持灵活的事件处理管道(Pipeline),可对告警事件进行二次处理或智能分析,并集成多种通知媒介。适用于复杂场景下的统一告警管理。 关键词: 夜莺监控、开源告警、多数据源、事件处理、Promet原创 2025-08-25 12:11:59 · 687 阅读 · 0 评论 -
Grafana侧重可视化,那多数据源告警呢?
摘要: 夜莺监控是一款专注于多数据源告警的开源项目,支持Prometheus、ElasticSearch、MySQL等数据源,解决传统告警方案(如Prometheus)在规则维护、多实例管理、日志告警等方面的痛点。其核心架构包括Web交互模块和告警引擎,通过告警规则、屏蔽规则、通知规则等实现事件处理与通知分发。夜莺支持灵活的事件处理管道(Pipeline),可对告警事件进行二次处理或智能分析,并集成多种通知媒介。适用于复杂场景下的统一告警管理。 关键词: 夜莺监控、开源告警、多数据源、事件处理、Promet原创 2025-08-21 15:39:33 · 1120 阅读 · 0 评论 -
Prometheus 告警时为何无法获取现场值
Prometheus告警恢复时无法获取恢复值的原因是:当指标恢复正常时,Prometheus查询不到数据,Alertmanager只能基于内存中的旧告警事件标记为恢复。开源监控系统Nightingale通过额外配置recovery_promql实现了恢复值获取功能,在恢复时重新查询指标值并存入告警事件的Annotations字段。这种设计弥补了Prometheus原生功能的不足,为告警处理提供了更完整的数据支持。原创 2025-08-12 10:05:40 · 1054 阅读 · 0 评论 -
为 Prometheus 告警规则增加 UI 管理能力
摘要:Prometheus作为主流监控工具面临告警规则管理难题,如YAML文件维护复杂、需运维团队统一审核导致效率低下。如何解决?原创 2025-08-10 11:09:34 · 904 阅读 · 0 评论 -
如何监控多个进程的存活和CPU、内存占用
本文介绍了如何利用夜莺监控和Categraf构建进程监控系统。夜莺是一款侧重告警的开源监控项目,可与多种时序数据库集成;Categraf是数据采集工具,支持采集进程存活状态、CPU、内存等指标。文章详细演示了部署VictoriaMetrics时序库、夜莺监控服务端和Categraf客户端的步骤,并配置procstat插件监控指定进程。通过procstat_lookup_count等关键指标,可及时发现进程异常并告警。这套方案特别适合尚未采用Kubernetes的传统企业进行基础监控建设。原创 2025-08-08 13:23:39 · 1122 阅读 · 0 评论 -
底层的告警,上层业务团队应该收吗?
本文探讨了业务应用的DEV或SRE是否应该接收底层基础设施告警的问题。作者认为关键要看是否有可执行的SOP(标准操作流程):若无法主动处理(如单机房部署),建议通过可视化页面监控SLI指标;若具备应对措施(如切流能力),则可通过订阅规则接收告警。文中推荐了两种实践方式:一是让底层服务为关键告警打标签便于订阅,二是在上层应用自行埋点采集成功率/延迟等精细化指标。原创 2025-07-24 15:35:27 · 168 阅读 · 0 评论 -
CPU 负载高,到底应不应该告警?
摘要:CPU负载高是否告警取决于告警是否可执行(actionable)。告警应分3级:Critical(立即处理)、Warning(延迟处理)、Info(仅记录)。关键原则是只有需要后续处理动作的告警才应配置,否则会产生告警疲劳。每个告警规则都应配套SOP处理预案,标注在告警规则的Annotations中。这比单纯搭建监控系统更有价值,能真正提升故障处理效率。作者建议从业务影响角度评估告警必要性,避免无效告警噪音。原创 2025-07-23 17:18:46 · 406 阅读 · 0 评论 -
夜莺监控V8发版,内置支持 DeepSeek 对接
夜莺监控发布v8.beta14生产可用版本,建议升级,正式版将于7月4日夜莺大会推出。主要更新包括:新增Postgres告警支持,可对业务数据(如订单、商品)进行异常检测;告警事件Pipeline接入AI Summary功能,使用DeepSeek等模型自动生成告警总结;改进告警事件匿名访问机制,支持生成带过期时间的分享链接。升级注意事项:v6/v7版本可平滑升级,需备份关键文件,DB账号需有改表权限,容器用户可直接拉取最新镜像。产品介绍PPT已同步更新。原创 2025-06-24 09:47:42 · 1077 阅读 · 0 评论 -
开源夜莺支持MySQL数据源,更方便做业务指标监控了
夜莺监控项目最新版本增强告警引擎功能,新增MySQL数据源支持,扩展业务监控能力。此前版本已支持Prometheus、VictoriaMetrics等传统数据源,现进一步丰富数据源类型。本次更新修复了通知媒介保存和Elasticsearch语法报错两个Bug。升级时可从GitHub获取最新发布包,v6/v7版本可平滑升级,建议备份后替换文件。产品特性可通过提供的PPT了解详细功能。原创 2025-06-11 09:43:31 · 758 阅读 · 0 评论 -
开源夜莺V8.Beta11发版,支持CK告警、事件Pipeline等
PPT。原创 2025-06-04 09:02:27 · 483 阅读 · 0 评论 -
夜莺监控新版,中心端连不通的时序库也可以告警了
本文介绍夜莺新版本的一个重要更新,支持在中心端无法连通的时序库的告警。这个版本的更新增强了夜莺的灵活性和可用性,尤其是在复杂网络环境下的应用场景。希望大家能在实际使用中体验到这个新功能的便利。原创 2025-03-31 10:38:27 · 1168 阅读 · 0 评论 -
夜莺监控 v8.0 新版通知规则 | 对接飞书告警
夜莺监控 v8.0 版本抽象了通知规则的概念,本文讲解在新版通知规则里如何对接飞书,发送飞书告警,既可以支持普通飞书消息也可以支持飞书卡片消息。原创 2025-03-17 10:48:18 · 756 阅读 · 0 评论 -
夜莺监控突破一万 star,这是汗水,也是鞭策
夜莺监控项目在上周突破了一万 star,算是一个小小的里程碑。本文聊聊做开源这几年的心路历程。一些小小的感悟。原创 2024-12-31 15:12:35 · 1019 阅读 · 0 评论 -
夜莺 v8 第一个版本来了,开始做有意思的功能了
夜莺 v8 发布了第一个 beta 版本,增强了机器告警的灵活性,支持阈值的覆盖,也简化了部署,一个二进制即可拉起服务,方便快速部署测试,另外也支持了 webhook 的 proxy 方便内网环境发送告警原创 2024-12-26 11:54:48 · 1335 阅读 · 0 评论 -
夜莺短信告警教程
本文讲解在夜莺监控中如何对接自己的短信通道,实现短信告警原创 2024-11-28 16:27:56 · 1334 阅读 · 0 评论 -
夜莺监控的机器支持挂载到多个业务组了
夜莺开源项目于国庆前夕发布了 v7.4.1 版本,修复了一些 bug,同时也带来了一些新功能。其中最重要的一个功能是:机器支持挂载到多个业务组了。本文将介绍几个重要的变更。原创 2024-10-08 14:54:34 · 1108 阅读 · 0 评论 -
Prometheus 告警恢复时,怎么获取恢复时的值?
Prometheus 告警事件中的$value表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的$value仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢?不废话,先说原理。原创 2024-08-29 17:19:32 · 1296 阅读 · 2 评论 -
在 Kubernetes 里部署 JMX Exporter 监控 Java 应用
在这篇博客中,我们介绍了在 Kubernetes 集群上实现 JMX Exporter 的步骤。此外,在导出器 Configmap 中,您可以为 JMX Exporter 添加其他过滤器设置,以收集其他指标。原文:https://devopscube.com/jenkins-architecture-explained/译文:https://flashcat.cloud/blog/jenkins-architecture-explained/译者:巴辉特。原创 2024-07-31 14:54:51 · 799 阅读 · 0 评论 -
开源监控 - 夜莺项目 v7 正式发版了
上周五去参加了第二届 CCF·夜莺开发者创新论坛,在会上,夜莺 v7 LTS 版本正式发布,另有多名嘉宾分享了自己公司的可观测性实践经验,挺有收获。说了半天你还没听过夜莺?那这里补充一点介绍信息。夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。原创 2024-07-29 08:58:36 · 732 阅读 · 0 评论 -
使用夜莺和Categraf快速建设MySQL监控
之前翻译过一篇文章,介绍,本文侧重实操,使用夜莺 v7.beta12.1 版本为大家做一个演示,采集器使用 Categraf,先看一下最终仪表盘效果:下面开工。原创 2024-07-11 11:52:19 · 1556 阅读 · 0 评论 -
教你一招,告警恢复时如何拿到恢复时的值?
Prometheus 生态的监控系统,在告警恢复消息中难以拿到恢复时的值,Nightingale 中提供了一个较为简单的方法,值得尝试原创 2024-06-12 15:30:26 · 979 阅读 · 0 评论 -
夜莺监控 v7.beta4 发版,仪表盘变量和业务组下的机器联动
夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。夜莺最初由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。原创 2024-05-23 14:18:12 · 1363 阅读 · 0 评论 -
夜莺监控(Nightingale)上线内置指标功能
Prometheus 生态里如果要查询数据,需要编写 promql,对于普通用户来说,门槛有点高。通常有两种解法,一个是通过 AI 的手段做翻译,你用大白话跟 AI 提出你的诉求,让 AI 帮你写 promql,另一种是平台里内置现成的 promql,覆盖常用场景开箱即用。夜莺监控(Nightingale)最近上线了内置指标功能,可以方便做知识沉淀,让普通用户也能开箱即用。原创 2024-05-13 11:57:09 · 1123 阅读 · 0 评论 -
已经有 Prometheus 了,还需要夜莺?
从夜莺官网摘出一段夜莺项目介绍:夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。夜莺最初由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。原创 2024-05-09 18:06:15 · 1542 阅读 · 1 评论 -
细说夜莺监控系统告警自愈机制
夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。夜莺最初由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。原创 2024-05-08 17:00:50 · 1605 阅读 · 0 评论 -
夜莺监控 V7 第二个 beta 版本发布,内置集成故障自愈能力,简化部署
夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。夜莺最初由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会(CCF ODC),为 CCF ODC 成立后接受捐赠的第一个开源项目。原创 2024-04-17 19:24:51 · 1166 阅读 · 0 评论 -
数据可视化基础篇-图形语法
要解决这个问题我们首先需要理解数据可视化的生成规律或者说是“语法”,目前主流的数据可视化理论认为,可视化是由基础标记(Mark)沿着某个或是某些视觉通道(Visual channel)进行映射的结果。以下面图为例,图1柱状图其表现数据的标记为"线",柱的纵向长度是视觉通道。图2散点图多了一个横向视觉通道且以“点”为标记。图4多了一个尺寸的视觉通道。通常情况会把形状、颜色的色调、空间位置认定为分类性质的视觉通道,其他的比如直线长度、区域面积、角度、颜色饱和度亮度等大部分认定为定量性质的视觉通道。原创 2024-03-06 14:10:58 · 828 阅读 · 0 评论 -
夜莺监控发布 v6.7 版本,推送部分商业版功能
夜莺(Nightingale)是一个 All-in-One 的云原生监控工具,集合了 Prometheus 和 Grafana 的优点,你可以在 UI 上管理和配置告警策略,也可以对分布在多个 Region 的指标、日志、链路追踪数据进行统一的可视化和分析。夜莺融入了顶级互联网公司可观测性最佳实践,沉淀了众多社区专家经验,开箱即用。原创 2024-01-24 19:10:54 · 591 阅读 · 0 评论 -
TiDB 多集群告警监控-中章-融合多集群 Grafana
在夜莺仪表盘-监控仪表盘界面,通过预先配置好想要查看的图表,用户在未来查看时只需点击即可直接浏览一系列图表,无需逐一选择。例如,在 MySQL 监控中,资深 DBA 可以事先将重要的图表以及应关注的图表都配置到监控大盘中。详细介绍可参考仪表盘介绍。先看看单张效果怎么样是不是似曾相识?没错监控大屏可以适配TiDB的 Grafana,上一篇接入数据源之后,其实夜莺即可通过查询到所有普罗米修斯的数据,也可以将 TIDB 的监控数据全部查询。前提是在此页面进行 PromQL 的编写。原创 2024-01-12 10:22:20 · 1405 阅读 · 0 评论 -
TiDB 多集群告警监控-初章-监控融合、自动告警处理
本篇文章粗浅的介绍了如何通过夜莺补齐 TiDB 告警融合缺失的问题,当然文章篇幅有限,实际会有更多细节,如感兴趣欢迎垂询。下一章将会介绍如何融合多集群 Grafana ,以及 Dashboard 部分功能实现,做到一个页面即可查看几十甚至上百节点集群的难题。原创 2024-01-11 10:32:00 · 1212 阅读 · 0 评论 -
夜莺项目发布 v6.5.0 版本,暗黑菜单来了
夜莺Nightingale是中国计算机学会托管的开源云原生可观测工具,最早由滴滴于 2020 年孵化并开源,并于 2022 年正式捐赠予中国计算机学会。夜莺采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,融入了顶级互联网公司可观测性最佳实践,沉淀了众多社区专家经验,开箱即用。原创 2023-12-20 14:17:38 · 990 阅读 · 0 评论 -
利用夜莺开源版对H3C无线设备监控
前文说明了利用夜莺开源版如何监控H3C交换机的,算是抛砖引玉;秉持着授人与鱼不如授人与渔,今天我们就来具体谈谈夜莺SNMP插件的使用,能自己自定义自身需求的监控指标才是真正学会如何利用夜莺去监控SNMP协议设备,今天将以H3C无线作为案例,具体讲解下SNMP插件配置。原创 2023-12-19 10:46:30 · 2192 阅读 · 0 评论 -
夜莺专业版网络设备功能介绍
网络设备的问题通常会产生较大范围的影响,因此采集监控网络设备是一项常见的任务。不同公司在实施网络设备采集时可能采用不同的方案,主要有三类:SNMP(Simple Network Management Protocol):SNMP是一种常用的网络管理协议,可以用于获取网络设备的状态和性能信息。大多数网络设备都支持SNMP,并提供了相应的MIB(Management Information Base)文件,用于定义设备的管理信息。原创 2023-12-04 19:06:08 · 1406 阅读 · 0 评论 -
夜莺项目发布 v6.4.0 版本,新增全局宏变量功能
夜莺专业版,是快猫星云在开源夜莺的基础上,从功能、体验、安全、技术保障等方面加以增强的版本,支持了日志告警、采集配置,告警聚合升级、网络设备监控等增强功能,适用于以开源版本为基础,并希望进一步快速完善可观测性平台的企业。如有相关需求,可以点击专业版安装包下载链接,安装试用。原创 2023-11-30 12:16:46 · 604 阅读 · 0 评论
分享