自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(409)
  • 资源 (6)
  • 收藏
  • 关注

原创 NodeTextFileCollectorScrapeError 报警原因及解决方法

这个命令。

2025-04-01 15:33:17 966

原创 grafana 配置页面告警

Rate 下拉选择也可,保持默认也可。By label 选择一个比如选择filename。配置无数据或者错误数据的时候如何处理,这里选择 Normal (表示当做正常不会告警)单机 node_name 标签,选择一个主机,选好后单机 Show logs。单机 New floder,如果之前配置过,也可以选择。单机 Save contact point 保存即可。会跳出如下对话框(如果没有跳出就自己单机选择下)完成后会自动生成如下图,告警规则部分就配置好了。选择告警接收方式(这里选择企业微信 WeCon)

2025-03-28 12:24:54 516

原创 vllm + litellm + langfuse 启动、代理、监控大模型(国内仓库)

vllm 启动大模型默认从下载大模型,如果不能上外网则启动不成功,因次本文介绍如何使用国内大模型启动。

2025-03-21 19:03:23 697

原创 langfuse 监控大模型

你可以用 Together.ai 提供的 免费 API(支持 Llama2/Mistral)进行推理,并用 Langfuse 记录请求日志。

2025-03-18 11:52:46 311

原创 containerd 拉取镜像的工具以及优劣

nerdctl Docker + K8s moby(需手动切换到 k8s.io) ✅ ✅ ✅(需 --namespace=k8s.io) 体验像 Docker,支持 save/load 默认 moby namespace,需手动切换。nerdctl 是一个类似 docker 命令行的工具,可以直接操作 containerd,并支持 moby(Docker)和 k8s.io(Kubernetes)命名空间。✅ 支持 k8s.io 和 moby 命名空间,可用于 Kubernetes 和 Docker 生态。

2025-03-14 19:15:51 115

原创 rsync 备份 clickhouse

备份完成后,如果想用这个备份数据直接启动新的 clickhouse 需要删除 store 目录下的空目录(因为在备份过程中源 clickhouse 如果是启动状态就会有空目录被备份)ClickHouse 的数据通常存储在 /var/lib/clickhouse/ 目录下,如果你想将 ClickHouse 数据备份到远程主机,可以使用 rsync。/var/lib/clickhouse/:本机 ClickHouse 数据目录。📌 使用 rsync 备份 ClickHouse 数据到远程主机。

2025-03-14 13:33:33 366

原创 clickhouse清除system 表数据释放磁盘空间

注:clickhouse 默认系统有以下几个 log 表,如下如果不想看原文直接执行以下语句即可。

2025-03-14 12:26:34 477

原创 如何将一个盘做成 lvm 盘并挂载

LVM(Logical Volume Manager,逻辑卷管理器)可以让你灵活管理存储空间,比如动态扩展和缩减卷。📌 注意 LV Path(例如 /dev/vg_data/lv_data),后面会用到!📌 说明 /dev/vg_data/lv_data 已成功挂载到 /mnt/data。,说明 vdb 已经被初始化为 LVM 物理卷,但尚未加入卷组。✅ 2. 创建 LVM 物理卷(PV)✅ 4. 创建 LVM 逻辑卷(LV)✅ 3. 创建 LVM 卷组(VG)✅ 5. 格式化 LVM 逻辑卷。

2025-03-13 17:01:32 244

原创 k8s 修改节点驱逐阈值

编辑 /var/lib/kubelet/config.yaml 文件。的 ExecStart=/usr/bin/kubelet 后。否则直接将该参数加到文件。重启该节点的 kubelet。

2025-03-13 12:23:48 171

原创 helmfile 报错 another operation (install/upgrade/rollback) is in progress

注意: 替换成 prometheus 所在的 Kubernetes 命名空间,通常是 monitoring 或 default。查看该 release 状态,如果输出结果为空(没发现该 release),则执行。尝试强制回滚 (helm rollback prometheus 4 --force)由报错信息可知,是 prometheus 这个 release 导致的。如果还不行,卸载 Helm release 并重新安装。试试这些方法,如果有进一步错误,可以提供。的输出,我可以帮你分析问题原因。

2025-03-06 19:37:16 51

原创 k8s Container runtime network not ready

k8s 3 控制节点,docker 运行时,后期踢掉其中一个节点,使用了 containerd 运行时,但是在加入集群的时候,node 状态 notready。查看 kubelet 的日志发现如下报错。重启 containerd。

2025-02-20 11:55:30 315

原创 ubuntu 网络单向速度慢问题排查

带 # 号的为配置,不带 # 号的为默认配置。导致去往该机器的网络很慢,使用的 iperf3 测试。

2025-02-19 17:37:49 80

原创 ceph HEALTH_WARN clock skew detected on mon.f, mon.o, mon.p, mon.q

这时候所有的 chronyd 客户端 Stratum 的值都会变为 11。说明 NTP 服务器不可靠。增加如下参数,这时候所有的 chronyd 客户端 Stratum 的值都会变为 2。chrony 是内网机器,并且服务端使用的本机时间,使用。命令查看 Stratum 的值为 11。修改 chronyd 服务端的配置文件。查看 chronyd 服务端的配置文件。

2025-02-19 11:55:33 123

原创 ceph fs status 输出详解

这些列提供了有关 Ceph 文件系统中各个 MDS 的详细状态信息,有助于管理员监控和管理文件系统的运行状况。STATE:MDS 的当前状态,例如 active(活跃)、standby(待机)等。CAPS:客户端在该 MDS 上持有的能力(capabilities)数量。DNS:MDS 管理的目录名称(Directory Names)的数量。ACTIVITY:MDS 当前的活动状态或正在执行的操作。RANK:元数据服务器(MDS)的等级或标识符。MDS:MDS 的名称或标识符。

2025-01-09 15:30:50 295

原创 ceph osd df 输出详解

通过分析这些列的信息,您可以了解每个 OSD 的存储使用情况、数据分布和健康状态,从而进行有效的集群管理和优化。REWEIGHT:OSD 的重新权重,用于手动调整数据分布,范围从 0(不接收数据)到 1(全量接收数据)。WEIGHT:OSD 的权重,表示在数据分布中的相对权重,通常与 OSD 的存储容量成正比。VAR:OSD 的使用率与集群平均使用率的偏差值,用于衡量数据分布的均衡程度。STATUS:OSD 的当前状态,例如 up(运行中)、down(已停止)等。DATA:OSD 上存储的实际用户数据量。

2025-01-09 15:28:02 287

原创 ceph 数据均衡

在 Ceph 集群中,ceph osd reweight-by-utilization 命令用于根据每个 OSD 的数据利用率调整其权重,以实现数据的均衡分布。例如,降低使用率高的 OSD 的权重,提升使用率低的 OSD 的权重。在 Ceph 集群中,执行 ceph osd reweight 命令会调整指定 OSD(对象存储守护进程)的权重,从而影响数据在集群中的分布。当您降低某个 OSD 的权重时,Ceph 会减少分配到该 OSD 的数据份额,将部分数据迁移到其他 OSD,以实现更均衡的存储分布。

2025-01-09 12:15:23 455

原创 Ubuntu 如何查看盘是机械盘还是固态盘

该命令将显示有关磁盘的详细信息,包括描述、产品型号等。例如,某些 SSD 的描述中可能包含 “SSD” 字样。请注意,某些虚拟化环境可能会影响这些命令的输出结果。如果输出为 0,则表示该设备是 SSD;ROTA 值为 0 表示设备是非旋转磁盘,即固态硬盘(SSD)。ROTA 值为 1 表示设备是旋转磁盘,即机械硬盘(HDD)。将 sdX 替换为实际的设备名称,例如 sda、sdb 等。该命令将列出所有块设备的名称和旋转标志(ROTA)。在此示例中,sda 是机械硬盘,sdb 是固态硬盘。

2025-01-09 10:29:29 695

原创 ceph 存储 full 阈值调整

在 Ceph 集群中,默认情况下,当某些 OSD(对象存储守护进程)的使用率达到 85% 时,系统会发出 nearfull 警告,并可能限制进一步的写入操作,以防止数据丢失或集群不稳定。要允许在 OSD 使用率超过 85% 的情况下继续写入,您可以调整以下两个参数:mon_osd_nearfull_ratio:定义 OSD 被视为“接近满”的阈值。默认值为 0.85(即 85%)。mon_osd_full_ratio:定义 OSD 被视为“满”的阈值。默认值为 0.95(即 95%)。

2025-01-09 10:27:38 203

原创 loki failed to flush

本文是用的ceph sc,将csi.storage.k8s.io/fstype: 的值改为 xfs。查看 pod 所在主机的内核日志。登录 loki-0 pod。查看磁盘 inode。

2024-12-27 17:16:44 323

原创 ceph osd 无法启动 handle_auth_bad_method server allowed_methods [2] but i only support [2] failed

目录下,由于出问题的是 osd-3 ,所以在该目录下过滤,包含 osd.3 字样的 key 文件。key 不一致导致。为什么会出现 key 不一致,可能是踢掉 osd 重新加的过程中出了问题。ssh 出问题的 osd 所在的主机上,rook-ceph 部署的进到。编辑文件,将key替换成 osd 所在主机上的key,即。到 rook-ceph-tools pod 里执行。输出的 osd.3 的 key 和上文文件中的不一样。进到 rook-ceph-tools pod。查看该文件的内容,复制出。

2024-12-23 12:07:03 170

原创 mysql 备份

【代码】mysql 备份。

2024-12-20 19:42:15 110

原创 go聊天系统项目6-服务端发送消息

敬告:本文不讲解代码,只是把代码展示出来。该代码之前的代码见go 聊天系统项目-1go聊天系统项目-2 redis 验证用户id和密码go聊天系统项目-3 redis注册用户go聊天项目4-显示用户列表go 聊天系统项目-5 客户端发消息注意:本文使用 go mod 管理代码。详情见 go 包相关知识。

2024-12-20 18:39:53 504

原创 go 聊天系统项目-5 客户端发消息

敬告:本文不讲解代码,只是把代码展示出来。该代码之前的代码见go 聊天系统项目-1go聊天系统项目-2 redis 验证用户id和密码go聊天系统项目-3 redis注册用户go聊天项目4-显示用户列表注意:本文使用 go mod 管理代码。详情见 go 包相关知识。

2024-12-20 17:27:19 451

原创 raid 状态查看 storcli64

opt/MegaRAID/storcli/storcli64 /c0/eall/sall show 主要是用于获取 MegaRAID 控制器中所有连接的磁盘、阵列以及相关硬件的详细信息。可以用来检查 RAID 阵列的健康状态、硬件配置、磁盘状态等。如果你需要了解磁盘的详细状态,特别是 RAID 阵列的配置、磁盘是否健康,这条命令是非常有用的。

2024-12-20 16:07:28 1046

原创 lsblk命令

【代码】lsblk命令。

2024-12-20 15:17:47 170

原创 mac iterm2 使用 lrzsz

mac os 中断不支持使用 rz sz 上传下载文件,本文提供解决方法。

2024-12-19 19:27:31 824

原创 docker 使用 xz save 镜像

这将在当前目录下创建一个名为 filename.xz 的压缩文件,并删除原始文件 filename.txt。例如 save busybox:1.31.1 镜像,其中 -T 是使用多核心压缩,可以加快压缩。如果docker save -o xxx > xxx 镜像体积过大,可以使用 xz 命令压缩。

2024-12-19 11:08:52 211

原创 helm 部署 nvidia-device-plugin

values.yaml文件。

2024-12-18 15:54:51 111

原创 grafana 修改登录密码

【代码】grafana 修改登录密码。

2024-12-17 16:33:55 122

原创 NCCL 测试

和 Dockerfile 放到同级别目录下。

2024-12-17 14:18:36 237

原创 Linux NVIDIA GPU linpack 测试

具体选择参考自己的操作系统。本文使用的ubuntu 22.04 操作系统,所以选择如下,另外 Installer Type 根据自己喜好,本文选择的是 deb(local)说明:你只需要根据你节点有多少张GPU卡调整 Ps Qs 的值即可,注意 Ps Qs 的乘机等于你的 GPU 卡数量即可(跟 CPU 没关系)。说明:安装 cuda的时候会把 nvidia driver 也安装上,所以不需要单独安装 nvidia driver。本文选择的是2.1版本的openmpi,下载见。选择 Download。

2024-12-16 12:38:10 1312

原创 NVIDIA cuda 和 driver兼容性列表

2.1. CUDA 11 and Later Defaults to Minor Version Compatibility

2024-12-10 12:10:39 414

原创 ceph /etc/ceph-csi-config/config.json: no such file or directory

不确定是不是该问题导致的,因为我删除 csi-cephfsplugin 后也删除了问题 pod dragonfly-redis-master-0,导致其启动到了别的节点。删除该节点下的csi-cephfsplugin 让其重启。rook-ceph 部署的 ceph。查看该 pod 启动在哪个节点。

2024-12-09 14:25:00 265

原创 istio Missing Version

安装的 istio 各个组件版本不一致。

2024-12-03 14:38:17 53

原创 rook-ceph ceph-bucket-notification: ObjectBucketClaim “default/ceph-bkt“ resource did not create

查看 rook-ceph-operator 其他日志,发现一条有效信息,该日志是说 CephCluster 在被删除的时候被阻塞了。使用 helm 部署 rook-ceph ,无法创建存储桶出来,日志如下。使用如下命令查看 rook-ceph-operator 日志。需要把 CephCluster 从被删除的状态中恢复出来。查看 CephCluster 状态,果然是被删除中。参考 rook-ceph 官网。

2024-12-02 11:23:56 42

原创 crush rule 20 type does not match pool

在 crushmap.txt 中找到目标规则,更新其步骤以符合副本类型规则的定义。

2024-12-01 20:23:32 236

原创 scp stty: ‘standard input‘: Inappropriate ioctl for device there is unrecognized parameter.

m1 这个主机 scp 命令被更改了。

2024-11-28 15:33:36 178

原创 go聊天项目4-显示用户列表

敬告:本文不讲解代码,只是把代码展示出来。该代码之前的代码见go聊天系统项目-3 redis注册用户注意:本文使用 go mod 管理代码。详情见go 包相关知识。

2024-11-25 15:14:14 877 1

原创 cephfs-top 使用

id 后跟的是用户名,默认是 fstop,这个用户名无权限。如果不指定 --id ,直接执行。cephfs-top依赖 mgr 的 stats 模块,需要将该模块设置成 enable。命令可以使用,注意要使用 --id [username] 指定用户名,如下。编辑 cluster.yaml 文件(非 helm 方式部署)注意:直接在命令行执行。命令将会报错,报错如下。

2024-11-21 16:43:31 65

原创 ubuntu 查看进程的缺页异常 major_page_faults 和 minor_page_faults

ps命令是Process Status的缩写,用于列出系统中当前正在运行的进程。在Ubuntu中,要查看是哪个进程导致的major_page_faults,你可以使用ps命令结合特定的选项来获取进程相关的缺页异常信息。min_flt:显示每个进程的minor_page_faults次数。maj_flt:显示每个进程的major_page_faults次数。ppid: 显示每个进程的 ppid。pid: 显示每个进程的 pid。cmd:显示进程的命令名或路径。-o:自定义输出格式。-e:显示所有进程。

2024-11-20 16:21:54 272

MR-SAS-StorCLI-1-16-06.zip

storcli 用来查看主机 raid 信息的命令安装包。

2024-12-31

使用prometheus监控k8s

k8s环境为kubeasz部署的k8s资源。

2023-04-03

centos stream 8 使用的runc

centos stream 8 runc

2022-10-12

k8s metrics-server资源清单文件

k8s metrics-server资源清单文件

2022-08-17

k8s-v1.24.1启动prometheus监控的yaml文件

k8s-v1.24.1启动prometheus监控的yaml文件

2022-06-17

calicoctl命令包

calicoctl命令包v3.23.1版本

2022-06-10

k8s网络插件calico启动yaml文件

k8s网络插件calico启动yaml文件

2022-06-10

kubevirt-cr.yaml文件

kubevirt-cr.yaml文件

2022-02-15

kubevirt-operator.yaml

kubevirt所需yaml文件

2022-02-11

kubevirt部署相关镜像

kubevirt部署相关镜像

2022-02-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除