自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

因上努力,果上随缘。但行好事,莫问前程。

有志者自有千方百计,无志者只感千难万难。

  • 博客(408)
  • 资源 (2)
  • 收藏
  • 关注

原创 Linux基础命令大全(持续更新)

【代码】Linux基础命令大全(持续更新)

2023-12-13 10:22:49 1368

原创 etcd数据备份添加监控告警

说明:当备份文件小于 1 MB(异常情况)时触发报警。说明:当备份失败(状态为 0)时触发报警。数据类型:数字 (integer)数据类型:数字 (integer)类型:Zabbix Agent。类型:Zabbix Agent。

2025-01-16 14:23:02 208

原创 k8s中的CriticalAddonsOnly容忍配置

Kubernetes 中,是一种用于关键组件的容忍配置,主要目的是确保集群核心功能组件在资源紧张或节点发生问题时能够继续运行。不过,它本身并不是直接与某些特定的污点(Taints)绑定的,而是可以和节点上任何污点配合使用,因为它采用了Exists操作符。

2024-12-06 13:58:01 285

原创 journald日志保留时长修改

systemd程序是进程 ID 为 1 的进程,它负责以所需的方式初始化系统,能保证机器启动后系统正常初始化,并提供按需启动守护程序功能,很适合K8s基础组件的管理。是systemd提供的管理日记的系统服务,会根据从内核、用户进程、标准输入和系统服务错误收到的日志记录信息,维护结构化的索引日记,并以此方式来收集和储存日志记录数据。

2024-11-25 16:05:18 460

原创 假死docker容器强制删除

查看docker日志可以看到docker一直在强制杀死某一个容器,但是就是杀不死。

2024-11-22 14:22:49 459

原创 LVM云盘创建及扩容

通过云平台console页面,创建云磁盘SSD,关联云实例。

2024-10-22 11:09:45 166

原创 k8s多集群管理(只读用户)

其他集群重复此操作,这样就可以实现通过一台只读机,切换集群上下文的方式,访问各个k8s集群了。

2024-09-25 13:52:48 341 1

原创 k8s-ingress报错:<error: endpoints “default-http-backend“ not found>

在Kubernetes中,默认后端是指当没有其他后端服务匹配到入口的请求时,流量将被发送到的地方。在Ingress资源中,你可以通过定义一个名为的服务来配置默认后端。

2024-07-15 12:15:31 983 3

原创 k8s部署jenkins(手撕yaml)

配置NodePort(目的是让webhook钩子直接使用ip)

2024-07-02 15:41:45 318

原创 Mongo产品迁移操作手册

MongoShake是一个以golang语言进行编写的通用的平台型服务,通过读取MongoDB集群的Oplog操作日志,对MongoDB的数据进行复制,后续通过操作日志实现特定需求。日志可以提供很多场景化的应用,为此,我们在设计时就考虑了把MongoShake做成通用的平台型服务。通过操作日志,我们提供日志数据订阅消费PUB/SUB功能,可通过SDKKafkaMetaQ等方式灵活对接以适应不同场景如日志订阅、数据中心同步、Cache异步淘汰等。

2024-05-20 09:44:13 542

原创 Redis产品迁移操作手册

借助DTS和迁移工具,云数据库Redis为您提供了多种数据迁移方案,结合现场实际情况我们选择了模式做redis产品的全量和增量数据迁移。迁移链路如下图:二、迁移前准备2.1 迁移实例信息环境IP内网端口超管账号/密码ah-16379**ah-26379**2.2 迁移工具介绍是阿里云自研的开源Redis数据传输工具,支持对Redis数据进行解析(decode)、恢复(restore)、备份(dump)和同步(sync或rump。

2024-05-11 15:16:22 404

原创 k3s报错:Error: Kubernetes cluster unreachable: Get “http://localhost:8080/version“: dial tcp [::1]:xxx

而helm使用的是kubectl默认的配置文件,对于k3s环境,需要设置一下KUBECONFIG的值即可。设置完成之后,就可以使用helm工具了,从这里也能看到k3s的一些第三方插件也是通过helm部署的。

2024-03-26 10:15:06 1171

原创 容器运行时-Containerd容器管理

容器基本操作主要是 ctr image 命令,查看命令帮助。

2024-03-21 10:03:57 1812

转载 DevOps(从入门到放弃)

基础集群组件SpringCloud 业务组件。

2024-01-19 17:39:55 397 1

原创 如何查找overlayfs对应的POD

客户生产环境监控发现在所有主机夜间2-3点,/home/t4目录磁盘使用率会暴涨后回落,由于时间范围比较固定,疑似某服务或主机设置定时任务导致,但和客户沟通在此时间段并未设置定时计划任务,和产研确认产品在此时间段也未设置定时计划任务。如此一来,就需要我们自己通过脚本抓取/home/t4下具体哪个目录导致的磁盘增长。

2024-01-19 15:30:17 1503

原创 wireshark根据请求头过滤包

请求头在应用程序中是可以自定义的。在问题排查过程中需要根据请求头过滤http包,本文描述如何在wireshark中根据请求头过滤http包。添加需要过滤的header名,如mgw-traceid、operation-type等,添加好后确定。打开wireshark“首选项”(perfreences),点击“协议”下拉找到HTTP,点击custom http header fileds。添加好后,就可以根据http.haeader.xxx进行过滤了。

2024-01-18 15:29:35 718

原创 /hbase/.oldlogs 存储空间过多如何清理

打开http://${master}:${port}/cm.jsp 账号密码均为hbase输入密码后,页面如下:调整master的log保留时间由默认的3天改成1天(注意数据安全,尽量在存储空间无风险的情况不要进行改操作)hbase.master.logcleaner.ttl 该值默认为259200000,代表3天,将该修改为86400000 1天如下:点击load使得该值被加载。

2024-01-17 15:30:08 518

原创 MySQL清理千万级表数据脚本

【代码】MySQL清理千万级表数据脚本。

2024-01-15 15:00:50 300

原创 Etcd集群故障恢复

【代码】Etcd故障恢复。

2023-12-21 16:28:07 559

原创 docker pull镜像报错:‘invalid checksum digest format‘

这个命令将返回镜像的 manifest(元数据),其中包含有关镜像的详细信息,包括层(layers)和配置。通过多次执行docker push可以发现,连接会重置到443端口上,返回的类似是一个html的内容。可以看到已经有服务监听了443端口,我们需要把这个服务给停掉。然后,你可以提取 manifest 中的层信息,并使用。最终可以拉取成功,证明registry服务正常。可以看到,已经配置了registry的安全连接。镜像可以导入本地,证明镜像没有问题。最终镜像可以正常推拉到镜像仓库!

2023-12-08 15:49:20 1095

转载 为啥有的configMap要重启Pod才生效

metadata:data:env方式envFrom方式volumes方式。env方式envFrom方式volumes方式。env方式和envFrom方式方式说白了是往容器里注入了环境变量,在容器启动的时候,就已经注入了,无法修改。每次修改configMap的key-value,需要重启Pod才能生效。volumes方式的方式,实际上把configMap的key-value写入到了容器对应的volume卷下,而且每次configMap变更,都会把最新值写入到volume卷下,这样容器每次都能取到最新值。

2023-11-23 16:16:17 979

转载 3 种方法限制 K8s Pod 磁盘容量使用

超过软限制后,仍然可以正常使用,但是登陆后会收到警告,在 grace time 倒计时完毕之前,用量低于软限制后,一切恢复正常。也就是说,如果你创建一个文件,打开文件,写入 1GB,然后删除文件,这种情况下 inode 仍然存在(直到你关闭文件),空间仍然被占用,但是 Kubelet 却没有算这 1GB.对于 Pod 级别的隔离,Pod 总用量限制,是每个容器限制之和。如果文件被创建、然后删除,但是它的文件描述符仍然处于打开状态,这种情况下,它仍然消耗空间,不会出现周期性扫描的那种漏统计的问题。

2023-11-23 15:23:30 654

原创 iowait过高问题查找及解决方案

如果 await 远大于 svctm,说明 I/O 队列太长,应用得到的响应时间变慢,如果响应时间超过了用户可以容许的范围,这时可以考虑更换更快的磁盘,调整内核 elevator 算法,优化应用,或者升级 CPU。另外,时机也很重要,可能 5 分钟前还人满为患的收款台,现在已是人去楼空,这时候交款可是很爽啊,当然,前提是那过去的 5 分钟里所做的事情比排队要有意义 (不过我还没发现什么事情比排队还无聊的)。确认是否是I/O导致的系统缓慢我们可以使用多个命令,最简单的是unix的命令 top。

2023-11-10 16:27:33 4177 1

原创 深入理解Kubernetes的驱逐机制

节点压力驱逐是指,Pod所在节点的资源,如CPU, 内存, inode等,这些资源被分为可压缩资源CPU (compressible resources) 与不可压缩资源 (incompressible resources) 磁盘IO, 内存等,当不可压缩资源不足时,Pod会被驱逐。Pod会根据节点的资源使用情况被逐出。如果集群中的节点数小于50,并且故障节点数超过总节点数的55%,则暂停 Pod 驱逐。即如果在 Pod 被驱逐并调度到新节点后该节点中的 Pod 也被驱逐,则该 Pod 将再次被驱逐。

2023-10-30 11:32:10 561

转载 kubernetes镜像GC

/ 执行垃圾回收策略,如果根据垃圾回收策略不能释放足够的空间,则会返回 error// 启动异步垃圾镜像回收Start()// 删除所有无用镜像。

2023-10-30 11:10:36 756

转载 Pod 的QoS服务质量

QoS(Quality of Service),可译为 "服务质量等级",或者译作 "服务质量保证",是作用在 Pod 上的一个配置,当 Kubernetes 创建一个 Pod 时,它就会给这个 Pod 分配一个 QoS 等级。Kubernetes 使用 Qos 类来决定 Pod 的调度和驱逐策略。

2023-10-20 15:45:16 161

转载 容器镜像安全漏洞扫描-Trivy

Trivy(tri 发音为 trigger,vy 发音为 envy)是一个简单而全面的漏洞/错误配置扫描器,用于容器和其他工件。软件漏洞是软件或操作系统中存在的故障、缺陷或弱点。Trivy 检测操作系统包(Alpine、RHEL、CentOS 等)和特定语言包(Bundler、Composer、npm、yarn 等)的漏洞。此外,Trivy 会扫描基础设施即代码 (IaC) 文件,例如 Terraform 和 Kubernetes,以检测使您的部署面临攻击风险的潜在配置问题。Trivy 易于使用。

2023-10-19 17:00:43 734

原创 教你如何查看Pod崩溃前的日志

当pod处于crash状态的时候,容器不断重启,此时用kubelet logs可能出现一直捕捉不到日志。

2023-10-19 16:38:33 565

转载 如何使用Kaniko在 Kubernetes 集群中构建容器镜像

Github地址:https://github.com/GoogleContainerTools/kanikoKaniko 是Google开源的一款在 Kubernetes 用来构建容器镜像的工具,它是一个从 Dockerfile 构建容器镜像的工具,就像 Docker 一样,但主要区别在于 Kaniko 可以在容器内运行,这意味着它可以在 Kubernetes 集群内运行。不需要特权模式,也不需要公开任何套接字。不需要在我们集群的节点上运行 Docker,因此我们使用哪个容器引擎来运行容器并不重要。

2023-10-19 16:15:34 1483

转载 如何在Kubernetes中使用Init Container

Pod 可以包含多个容器,应用运行在这些容器里面,同时 Pod 也可以有一个或多个先于应用容器启动的 Init 容器。

2023-10-19 15:54:08 718

转载 Kubernetes中的Pause容器到底是干嘛的

k8s.gcr.io 这个地址是需要连外网才可以拉取到,导致 pause 镜像拉不下来,Pod无法启动。以前都没关注过 pause 这个容器,它是啥,做什么用的,怎么在 Pod 里没看到过他,本文将带你了解 pause 容器。

2023-10-19 15:29:24 809

转载 一文了解负载均衡器、反向代理、API 网关区别

利用负载均衡器、反向代理和 API 网关在你的业务架构中可能很难区分和选择,但有了正确的知识,您就可以做出明智的决策并为您的 Web 应用程序选择完美的组件。请记住,负载均衡器在多个后端服务器之间分配流量,反向代理提供额外的应用程序级功能,API 网关为基于微服务的应用程序提供集中管理和安全性。希望这篇文章能够帮助你~

2023-10-19 10:38:23 154

转载 KubeVela 基础入门

KubeVela 是 OAM 规范(实际上 OAM 规范会滞后于 KubeVela 中使用的规范)的一个实现,是一个开箱即用的现代化应用交付与管理平台,它使得应用在面向混合云环境中的交付更简单、快捷。使用 KubeVela 的软件开发团队,可以按需使用云原生能力构建应用,随着团队规模的发展、业务场景的变化扩展其功能,一次构建应用,随处运行。

2023-10-16 17:03:28 1505

原创 如何查找overlayfs对应的POD

大家有时候会在环境中碰到一个问题,就是在某一个时间段,docker或者containerd目录挂载的磁盘使用率会飙升(例如挂载的目录是/home/deployer/containerd),触发告警,飙升完之后又自动落回,由于时间范围比较固定,疑似某服务或主机设置定时任务导致,但是排查完之后,并没有发现这个时间段内有定时任务,如此一来,就需要我们自己通过某些手段查找是该磁盘下的具体哪个目录导致的。

2023-10-12 17:01:13 650

原创 HBase .oldlogs存储空间过多清理

hbase的/hbase/.oldlogs存储空间占用过多,触发hbase-slave存储空间占用告警。

2023-10-12 16:16:30 371

原创 HBase清理回收站空间

Hbase回收站空间体积过大导致hbase空间被占满,磁盘使用率告警。

2023-10-10 16:24:43 415

原创 HBASE/HDFS服务常用启停命令

若你是通过k8s部署的高可用hbase集群(三台hbase-master,五台hbase-slave)

2023-10-10 15:15:41 997

原创 prometheus之记录规则(recording rules)与告警规则(alerting rule)

记录规则允许您预先计算经常需要的或计算成本高昂的表达式,并将其结果保存为一组新的时间序列。查询预计算的结果通常会比每次需要时执行原始表达式快得多。这对于仪表板尤其有用,因为仪表板每次刷新时都需要重复查询同一个表达式。记录和警报规则存在于规则组中。组中的规则以固定的时间间隔按顺序运行,评估时间相同。记录规则的名称必须是有效的度量值名称。警报规则的名称必须是有效的标签值。

2023-10-09 15:33:29 1891

原创 k8s常用命令合集

2.9、Nodes 相关。

2023-10-09 14:49:37 2545

原创 容器自动清理日志脚本(二)

【代码】容器自动清理日志脚本(二)

2023-09-05 17:12:30 50

2022年最新Docker 常见面试题汇总

2022年最新Docker 常见面试题汇总 适用人群:即将要面试docker容器管理岗位的小伙伴,也适用于后期打算往docker容器化方向发展的小伙伴 内容概要:面试题较新,帮你轻松应对各大厂面试哦!

2022-06-09

2022年最新DevOps和CI CD 常见面试题汇总

2022年最新DevOps和CI CD 常见面试题汇总 适用人群:devops工程师 帮你轻松应对各大厂面试,拿高薪!

2022-06-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除