CN-FuWei-优快云博客

原创 Linux基础命令大全(持续更新)

【代码】Linux基础命令大全(持续更新)

2023-12-13 10:22:49 1368

原创 etcd数据备份添加监控告警

说明：当备份文件小于 1 MB（异常情况）时触发报警。说明：当备份失败（状态为 0）时触发报警。数据类型：数字 (integer)数据类型：数字 (integer)类型：Zabbix Agent。类型：Zabbix Agent。

2025-01-16 14:23:02 208

原创 k8s中的CriticalAddonsOnly容忍配置

Kubernetes 中，是一种用于关键组件的容忍配置，主要目的是确保集群核心功能组件在资源紧张或节点发生问题时能够继续运行。不过，它本身并不是直接与某些特定的污点（Taints）绑定的，而是可以和节点上任何污点配合使用，因为它采用了Exists操作符。

2024-12-06 13:58:01 285

原创 journald日志保留时长修改

systemd程序是进程 ID 为 1 的进程，它负责以所需的方式初始化系统，能保证机器启动后系统正常初始化，并提供按需启动守护程序功能，很适合K8s基础组件的管理。是systemd提供的管理日记的系统服务，会根据从内核、用户进程、标准输入和系统服务错误收到的日志记录信息，维护结构化的索引日记，并以此方式来收集和储存日志记录数据。

2024-11-25 16:05:18 460

原创假死docker容器强制删除

查看docker日志可以看到docker一直在强制杀死某一个容器，但是就是杀不死。

2024-11-22 14:22:49 459

原创 LVM云盘创建及扩容

通过云平台console页面，创建云磁盘SSD，关联云实例。

2024-10-22 11:09:45 166

原创 k8s多集群管理（只读用户）

其他集群重复此操作，这样就可以实现通过一台只读机，切换集群上下文的方式，访问各个k8s集群了。

2024-09-25 13:52:48 341 1

原创 k8s-ingress报错：＜error: endpoints “default-http-backend“ not found＞

在Kubernetes中，默认后端是指当没有其他后端服务匹配到入口的请求时，流量将被发送到的地方。在Ingress资源中，你可以通过定义一个名为的服务来配置默认后端。

2024-07-15 12:15:31 983 3

原创 k8s部署jenkins（手撕yaml）

配置NodePort（目的是让webhook钩子直接使用ip）

2024-07-02 15:41:45 318

MongoShake是一个以golang语言进行编写的通用的平台型服务，通过读取MongoDB集群的Oplog操作日志，对MongoDB的数据进行复制，后续通过操作日志实现特定需求。日志可以提供很多场景化的应用，为此，我们在设计时就考虑了把MongoShake做成通用的平台型服务。通过操作日志，我们提供日志数据订阅消费PUB/SUB功能，可通过SDKKafkaMetaQ等方式灵活对接以适应不同场景如日志订阅、数据中心同步、Cache异步淘汰等。

2024-05-20 09:44:13 542

原创 Redis产品迁移操作手册

借助DTS和迁移工具，云数据库Redis为您提供了多种数据迁移方案，结合现场实际情况我们选择了模式做redis产品的全量和增量数据迁移。迁移链路如下图：二、迁移前准备2.1 迁移实例信息环境IP内网端口超管账号/密码ah-16379**ah-26379**2.2 迁移工具介绍是阿里云自研的开源Redis数据传输工具，支持对Redis数据进行解析（decode）、恢复（restore）、备份（dump）和同步（sync或rump。

2024-05-11 15:16:22 404

原创 k3s报错：Error: Kubernetes cluster unreachable: Get “http://localhost:8080/version“: dial tcp [::1]:xxx

而helm使用的是kubectl默认的配置文件，对于k3s环境，需要设置一下KUBECONFIG的值即可。设置完成之后，就可以使用helm工具了，从这里也能看到k3s的一些第三方插件也是通过helm部署的。

2024-03-26 10:15:06 1171

原创容器运行时-Containerd容器管理

容器基本操作主要是 ctr image 命令，查看命令帮助。

2024-03-21 10:03:57 1812

转载 DevOps（从入门到放弃）

基础集群组件SpringCloud 业务组件。

2024-01-19 17:39:55 397 1

原创如何查找overlayfs对应的POD

客户生产环境监控发现在所有主机夜间2-3点，/home/t4目录磁盘使用率会暴涨后回落，由于时间范围比较固定，疑似某服务或主机设置定时任务导致，但和客户沟通在此时间段并未设置定时计划任务，和产研确认产品在此时间段也未设置定时计划任务。如此一来，就需要我们自己通过脚本抓取/home/t4下具体哪个目录导致的磁盘增长。

2024-01-19 15:30:17 1503

原创 wireshark根据请求头过滤包

请求头在应用程序中是可以自定义的。在问题排查过程中需要根据请求头过滤http包，本文描述如何在wireshark中根据请求头过滤http包。添加需要过滤的header名，如mgw-traceid、operation-type等，添加好后确定。打开wireshark“首选项”（perfreences），点击“协议”下拉找到HTTP，点击custom http header fileds。添加好后，就可以根据http.haeader.xxx进行过滤了。

2024-01-18 15:29:35 718

原创 /hbase/.oldlogs 存储空间过多如何清理

打开http://${master}:${port}/cm.jsp 账号密码均为hbase输入密码后，页面如下：调整master的log保留时间由默认的3天改成1天(注意数据安全，尽量在存储空间无风险的情况不要进行改操作)hbase.master.logcleaner.ttl 该值默认为259200000，代表3天，将该修改为86400000 1天如下：点击load使得该值被加载。

2024-01-17 15:30:08 518

原创 MySQL清理千万级表数据脚本

【代码】MySQL清理千万级表数据脚本。

2024-01-15 15:00:50 300

原创 Etcd集群故障恢复

【代码】Etcd故障恢复。

2023-12-21 16:28:07 559

原创 docker pull镜像报错：‘invalid checksum digest format‘

这个命令将返回镜像的 manifest（元数据），其中包含有关镜像的详细信息，包括层（layers）和配置。通过多次执行docker push可以发现，连接会重置到443端口上，返回的类似是一个html的内容。可以看到已经有服务监听了443端口，我们需要把这个服务给停掉。然后，你可以提取 manifest 中的层信息，并使用。最终可以拉取成功，证明registry服务正常。可以看到，已经配置了registry的安全连接。镜像可以导入本地，证明镜像没有问题。最终镜像可以正常推拉到镜像仓库！

2023-12-08 15:49:20 1095

转载为啥有的configMap要重启Pod才生效

metadata:data:env方式envFrom方式volumes方式。env方式envFrom方式volumes方式。env方式和envFrom方式方式说白了是往容器里注入了环境变量，在容器启动的时候，就已经注入了，无法修改。每次修改configMap的key-value，需要重启Pod才能生效。volumes方式的方式，实际上把configMap的key-value写入到了容器对应的volume卷下，而且每次configMap变更，都会把最新值写入到volume卷下，这样容器每次都能取到最新值。

2023-11-23 16:16:17 979

转载 3 种方法限制 K8s Pod 磁盘容量使用

超过软限制后，仍然可以正常使用，但是登陆后会收到警告，在 grace time 倒计时完毕之前，用量低于软限制后，一切恢复正常。也就是说，如果你创建一个文件，打开文件，写入 1GB，然后删除文件，这种情况下 inode 仍然存在（直到你关闭文件），空间仍然被占用，但是 Kubelet 却没有算这 1GB.对于 Pod 级别的隔离，Pod 总用量限制，是每个容器限制之和。如果文件被创建、然后删除，但是它的文件描述符仍然处于打开状态，这种情况下，它仍然消耗空间，不会出现周期性扫描的那种漏统计的问题。

2023-11-23 15:23:30 654

原创 iowait过高问题查找及解决方案

如果 await 远大于 svctm，说明 I/O 队列太长，应用得到的响应时间变慢，如果响应时间超过了用户可以容许的范围，这时可以考虑更换更快的磁盘，调整内核 elevator 算法，优化应用，或者升级 CPU。另外，时机也很重要，可能 5 分钟前还人满为患的收款台，现在已是人去楼空，这时候交款可是很爽啊，当然，前提是那过去的 5 分钟里所做的事情比排队要有意义 (不过我还没发现什么事情比排队还无聊的)。确认是否是I/O导致的系统缓慢我们可以使用多个命令，最简单的是unix的命令 top。

2023-11-10 16:27:33 4177 1

原创深入理解Kubernetes的驱逐机制

节点压力驱逐是指，Pod所在节点的资源，如CPU, 内存, inode等，这些资源被分为可压缩资源CPU (compressible resources) 与不可压缩资源 (incompressible resources) 磁盘IO, 内存等，当不可压缩资源不足时，Pod会被驱逐。Pod会根据节点的资源使用情况被逐出。如果集群中的节点数小于50，并且故障节点数超过总节点数的55%，则暂停 Pod 驱逐。即如果在 Pod 被驱逐并调度到新节点后该节点中的 Pod 也被驱逐，则该 Pod 将再次被驱逐。

2023-10-30 11:32:10 561

转载 kubernetes镜像GC

/ 执行垃圾回收策略，如果根据垃圾回收策略不能释放足够的空间，则会返回 error// 启动异步垃圾镜像回收Start()// 删除所有无用镜像。

2023-10-30 11:10:36 756

转载 Pod 的QoS服务质量

QoS（Quality of Service），可译为 "服务质量等级"，或者译作 "服务质量保证"，是作用在 Pod 上的一个配置，当 Kubernetes 创建一个 Pod 时，它就会给这个 Pod 分配一个 QoS 等级。Kubernetes 使用 Qos 类来决定 Pod 的调度和驱逐策略。

2023-10-20 15:45:16 161

转载容器镜像安全漏洞扫描-Trivy

Trivy（tri 发音为 trigger，vy 发音为 envy）是一个简单而全面的漏洞/错误配置扫描器，用于容器和其他工件。软件漏洞是软件或操作系统中存在的故障、缺陷或弱点。Trivy 检测操作系统包（Alpine、RHEL、CentOS 等）和特定语言包（Bundler、Composer、npm、yarn 等）的漏洞。此外，Trivy 会扫描基础设施即代码 (IaC) 文件，例如 Terraform 和 Kubernetes，以检测使您的部署面临攻击风险的潜在配置问题。Trivy 易于使用。

2023-10-19 17:00:43 734

原创教你如何查看Pod崩溃前的日志

当pod处于crash状态的时候，容器不断重启，此时用kubelet logs可能出现一直捕捉不到日志。

2023-10-19 16:38:33 565

转载如何使用Kaniko在 Kubernetes 集群中构建容器镜像

Github地址：https://github.com/GoogleContainerTools/kanikoKaniko 是Google开源的一款在 Kubernetes 用来构建容器镜像的工具，它是一个从 Dockerfile 构建容器镜像的工具，就像 Docker 一样，但主要区别在于 Kaniko 可以在容器内运行，这意味着它可以在 Kubernetes 集群内运行。不需要特权模式，也不需要公开任何套接字。不需要在我们集群的节点上运行 Docker，因此我们使用哪个容器引擎来运行容器并不重要。

2023-10-19 16:15:34 1483

2022年最新Docker 常见面试题汇总

2022年最新DevOps和CI CD 常见面试题汇总

MySQL一主两从迁移