在离线混合部署 + Prometheus+grafana 监控和管理资源

最新推荐文章于 2025-10-27 00:18:23 发布

原创

最新推荐文章于 2025-10-27 00:18:23 发布 · 832 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#kubernetes

本文介绍了在离线混合部署的概念和价值，特别是在资源管理中的应用。通过部署Prometheus和Grafana实现系统监控，详细阐述了从安装到配置的步骤，包括node-exporter的daemonset部署、Prometheus组件的设置，以及Grafana的数据源添加和模板导入。

在离线混合部署

什么是在离线混合部署？

首先要理解什么是在线任务，什么是离线任务。简而言之，在线任务要求响应时间短，相应的可能所需资源相对较少，而离线任务则与之相对，一般所需的资源较多，但是可以响应时间较长，例如机器学习，将在线任务和离线任务部署在同一个集群上，就叫在离线混合部署。

意义和价值

关于在离线混合部署，老生常谈的一个例子就是双十一，在购物狂欢节时，淘宝需要超大集群来提供计算能力来应对这天巨大的流量冲击，但双十一之后，这些计算资源就面临着浪费，这个时候就可以把这些计算运行一些不需要很及时反应的离线任务，而当新一轮流量冲击的时候，就可以延缓对离线任务的响应和资源分配，甚至关停掉离线任务，这样利用在离线混合部署就可以保持比较高的资源利用率，来保证资源的合理化分配。

对于不同任务部署的优先状态，可以参考之前的博文，了解一下资源调度的优先级。对于离线任务部署和在线任务部署，可以参考之前的博文。

监控和管理资源

简介

Prometheus是一套开源的系统监控报警框架。它受启发于Google的Brogmon监控系统，由工作在SoundCloud的前google员工在2012年创建，作为社区开源项目进行开发，并于 2015年正式发布。

2016年，Prometheus正式加入Cloud Native Computing Foundation（CNCF）基金会的项目，成为受欢迎度仅次于Kubernetes 的项目。2017年底发布了基于全新存储层的2.0版本，能更好地与容器平台、云平台配合。

Prometheus作为新一代的云原生监控系统，目前已经有超过650+位贡献者参与到Prometheus的研发工作上，并且超过120+项的第三方集成。

部署prometheus+grafana监控

1. 首先先安装 git 插件，然后再下载相关的yaml文件

yum install git
git clone https://gitee

最低0.47元/天解锁文章