
运维
文章平均质量分 78
一粒菜鸟
这个作者很懒,什么都没留下…
展开
-
prometheus监控k8s集群系列之kube-state-metrics
前言前面我们已经介绍了通过cadvisor和node-exporter来监控k8s集群容器和主机资源,今天向大家介绍一下kube-state-metrics对k8s集群的监控,那它主要是监控哪些内容的呢?我们先看一下官方的介绍kube-state-metrics is a simple service that listens to the Kubernetes API server and generates metrics about the state of the objects. (See原创 2020-11-24 21:29:47 · 16807 阅读 · 0 评论 -
prometheus监控k8s集群系列之node-exporter篇
使用node-exporter监控k8s集群内主机资源简介prometheus监控服务器CPU、内存、磁盘、I/O等信息,可以使用node-exporter,在虚机或物理机环境中,监控主机的步骤是,在每台主机上安装node-exporter,然后在prometheus的抓取任务中配置每一台主机的地址,每次添加主机,都需要重复去做这个操作,而在k8s环境中,我们可以通过DaemonSet类型创建node-exporter,基于Prometheus在k8s内的node类型的服务发现,可以对新扩容的主机自动部原创 2020-11-23 21:25:14 · 20993 阅读 · 1 评论 -
prometheus监控k8s集群系列之cadvisor篇
通过cadvisor结合prometheus监控k8s集群容器基础设施(container)简介cAdvisor可以对Node机器上的资源及容器进行实时监控和性能数据采集,包括CPU、内存使用情况、网络吞吐量及文件系统使用情况,1.7.3版本以前,cadvisor的metrics数据集成在kubelet的metrics中,在1.7.3以后版本中cadvisor的metrics被从kubelet的metrics独立出来了,每个Node机器上都会有一个aAdvisor对这台机器进行监控。操作从简介中我们原创 2020-09-26 10:14:40 · 19278 阅读 · 4 评论 -
k8s集群内prometheus频繁oomkilled问题解决
背景通过在k8s集群内搭建prometheus对k8s集群进行监控,主要包括一下模块node-exporter监控物理机资源cadavisor、kube-state-metrics监控容器资源kubeleteapiserveretcdcontroller managerkube-proxy应用程序容器自身暴露的metrics但随着集群规模的增大,抓取的监控指标越来越多,prometheus容器开始经常出现oomkilled的问题,导致prometheus几乎不可用,无限增大分配给pr原创 2020-08-31 19:38:56 · 18564 阅读 · 1 评论 -
k8s环境下搭建prometheus
前言啥都不说,直接开造!开造首先在k8s集群创建命名空间monitoringkubectl create namespace monitoring服务账户(prometheus-sa.yaml)apiVersion: v1kind: ServiceAccountmetadata: name: prometheus namespace: monitoring集群角色(prometheus-clusterRole.yaml)apiVersion: rbac.authorizati原创 2020-07-16 20:25:56 · 15335 阅读 · 1 评论 -
k8s环境下prometheus监控canal实践
前言使用prometheus监控canal的方法官方文档上已经介绍的很详细了,这里主要是介绍一下在k8s环境下,prometheus通过pod的服务发现,自动添加对新增的canal-server实例的监控操作canal-server的容器化教程在前面文章中已经详细介绍过了,有兴趣的可以看一下。k8s环境搭建canal-server主要关注当时canal-server创建的yaml中的以下配置spec: selector: matchLabels: app: canal-s原创 2020-07-14 22:00:17 · 13737 阅读 · 0 评论 -
90+高分拿下阿里云acp认证,附完整备考流程和考试资料
前言断更许久回归,前段时间除了工作任务比较多以外,其余时间都用来准备阿里云的acp认证了,如今证书到手,正式回归正常更新节奏。今天先来给大家分享一下我备考acp认证的一些经验和资料,希望可以帮助到有兴趣的小伙伴!介绍首先我备考的是阿里云acp认证中的云计算工程师,它是面向使用阿里云云计算产品的架构、开发、运维人员的专业技术认证。这个属于阿里认证中比较简单的一项考试了,由于疫情原因,阿里推出了线上的acp认证考试,但是随着疫情的逐渐好转,线下的考试报名也已经慢慢恢复了,刚刚去官网看了一下,线上的考试通道原创 2020-06-30 21:15:09 · 22366 阅读 · 6 评论 -
服务器无外网环境安装软件
服务器无外网环境安装软件背景yum源rpm安装背景有过linux服务器内网环境安装各种软件经历的童靴或多或少体验过安装过程中各种依赖缺失,又找不到合适rpm包的痛苦,下面是一些我工作经历中总结出的一些可以减少这些痛苦的经验,给新手开路,望大神指点!yum源这是大家安装软件时,最爽的安装方式之一,写在这里有点算废话了,但是还是想说一句,能用本地yum源安装的就不要再用下面的这些方法了。yu...原创 2019-04-09 09:44:28 · 14495 阅读 · 0 评论