Zvanity-优快云博客

原创直接挂载和LVM挂载的区别

2、创建pv vg lv 然后格式化挂载。1、数据直接格式化挂载。

2025-08-06 09:00:18 179

在业务高峰期或容器内存限额配置不当时，Linux 可能发生 Out-Of-Memory（OOM）。若 vm.panic_on_oom 被设为 1，则会直接触发 kernel panic，导致整机重启。为了避免因单点内存泄漏而扩大故障，现统一调整 vm.panic_on_oom=0，确保系统通过 OOM Killer 自愈而不是重启。4、重新检查vm.panic_on_oom的值。2、检查vm.panic_on_oom的值。3、修改vm.panic_on_oom的值。linux内存使用率过高会导致机器重启。

2025-08-04 10:14:20 521

原创二进制升级openssh版本

官网下载地址：https://www.openssh.com/releasenotes.html。升级后ssh服务正常，vnc登录正常，别的机器登录后服务器就会重启，内核版本过低，升级内核后正常。升级后ssh服务正常，vnc登录正常，xshell无法连接，确少配置文件。tar -xzvf openssh-版本.tar.gz。1、上传openssh的tar包到指定位置。6、重启服务查看服务是否正常。

2025-06-10 09:13:35 273

原创通过Prometheus监控gpu状态

中的 targets 列表指定了具体的抓取目标。这里的地址需要替换成实际的IP地址和端口，通常是运行监控代理的服务器地址。2、通过docker部署dcgm-exporter监控gpu的状态，k8s可以直接用gpu-Operator 部署。1、github地址：https://github.com/NVIDIA/dcgm-exporter。为这个抓取任务命名，可以在Prometheus的查询界面中用于区分不同的任务。4、对接到Grafana,详情查看。3、部署完成后修改之前的配置文件。

2025-05-12 10:18:58 665

原创基于docker部署Grafana和prometheus并对接

填写仪表盘的网址或者id，可以进入https://grafana.com/grafana/dashboards/查看所有仪表盘。添加新的节点需重启一下prometheus的docker服务。1、拉取Grafana和prometheus的镜像。4、prometheus对接到Grafana。自定义prometheus的名称和填写地址。创建prometheus的配置文件。3、部署prometheus。2、部署grafana。

2025-05-09 16:13:50 521

原创 shell和expect批量拷贝文件到机器并执行

1、背景：云主机环境，无ansible环境，sshpass无法使用，需要批量执行脚本。2、使用shell和expect，上传文件到指定ip并执行脚本。

2025-04-07 17:26:07 362

原创对象存储常用命令

对象存储常用命令。

2025-03-24 15:03:51 348

原创 ansible自动压测gpu脚本

ansible自动压测gpu脚本。

2025-03-21 15:38:03 374

原创服务器关闭节能模式

1、服务器进入bios，找到socket configuration中的中的advanced power manazgement configuration。2、找到cpu c state control 关闭cpu repo 和enhanced halt stata,最后保存并退出。

2025-03-14 15:21:34 812

原创重新打包iso文件，实现自动化安装系统

3、文件修改完成之后可以直接使用软碟通，poweriso将修改的文件放进去，或者在linux中通过xorriso重新打包。2、ks文件可以通过已安装的虚机，查看/root/anaconda-ks.cfg获取。1、先挂载镜像到系统，找到需要修改的文件。在文件中插入你的ks文件存放的位置。可以查看以下网址有详细解释。

2025-03-13 09:34:38 566

原创 openstack常见故障问题处理

迁移的计算节点的nova用户没有免密：在nova的.ssh的目录下拷贝文件到没有免密的那个计算节点。4、当openstack环境是v6的，扩容新的计算节点，需要注意libvirt的配置文件，将。2、迁移虚机报错（包括虚机扩容迁移，虚机计算节点故障疏散虚机）1、新扩容的计算节点，新建虚机报错。镜像文件qcow2问题更换镜像。计算节点通：计算节点不通加路由。然后重启libvirt服务。

2025-03-10 10:40:37 539

原创 GPU常见故障问题及处理建议

使用cuda自带的检测工具BandwidthTest、P2pBandwidthLatencyTest等程序进行GPU性能检测，不同型号的GPU带宽等表现不同。GPU运行过程中会出现Fan ERR以及功率等ERR报错，可以通过检查nvidia-smi输出中是否包含ERR!GPU识别状态检查，确保lspci命令识别所有GPU，其次确保nvidia-smi 命令识别所有GPU。GPU带宽检查，需要确保GPU当前带宽与额定带宽一致且为x16。用lspci的命令进行gpu带宽检查。3、GPU ERR！

2025-03-10 09:47:40 2678

原创 gpu的驱动安装及测试

3、在gpubrun压测时，安装cuda的dcgm可以对接Prometheus，在Grafana中进行温度和功率的图形化展示，对温度和功率进行监控。用–silent --driver --toolkit可以直接运行，静默安装，具体查看官网。运行 bandwidthTest 测试套件，用于主机到设备，设备到主机，设备内部的带宽。2、下载gpu-burn，解压，进入文件，make。5、NCCL带宽测试，官网拉取nccl的文件。1、安装cuda驱动。

2025-03-06 15:24:05 642

原创 virsh常用命令

查看虚机在物理机上走的网桥。设置虚拟机开机自动启动。设置取消虚拟机自动启动。查看net的详细信息。

2025-03-06 14:45:53 412

原创 k8s集群雪崩问题处理

2、由于某个应用无限制的使用节点的 CPU 资源，导致节点上 CPU 使用持续100%运行，而且压榨到了 kubelet 组件的 CPU 使用，这样就会导致 kubelet 和 apiserver 的心跳出问题，节点就会出现 Not Ready 状况了。默认情况下节点 Not Ready 过后，5分钟后会驱逐应用到其他节点，当这个应用跑到其他节点上的时候同样100%的使用 CPU，是不是也会把这个节点搞挂掉，同样的情况继续下去，也就导致了整个集群的雪崩，集群内的节点一个一个的 Not Ready 了。

2025-03-04 15:03:55 440

原创 openstack添加计算节点cpu隔离和大页配置

2、dpdk 8个核由sdn提供如 FP_MASK=1-4,33-36。需要按照实际来填写，正常占物理机总内存的百分之75到百分之八十。查看自己修改的有没有成功更改过来。10、给flavor设置大页。

2025-03-04 14:45:38 285

原创 open-webui用大模型创建本地知识库

1、部署好openwebui 登录地址 ip+端口直接注册登录就可以。6、添加模型名称，基础的大模型和选择上传的知识库，保存。2、选择工作空间，点击知识库，选择+号。3、创建知识库的名称和知识库的目标。7、选择刚刚新建的知识库大模型。5、选择工作空间，新建模型。4、上传知识库的文件。

2025-03-03 10:55:42 561

原创服务器做raid

1、登录对应服务器ipmi地址进入控制台，如果做系统时看不见系统盘需要重新做raid。这里要勾选需要做的raid，除了raid需要选其他默认即可。如果需要再原有基础上做raid需要删个别盘再点创建。点击清楚配置这里要看一下盘数这里将清楚22块盘。2、进入bios界面按F10进入管理。看一下是不是22块要清。重启等待进入系统即可。

2025-03-03 10:42:46 948

原创 linux系统进单用户显示黑屏

linux系统进单用户显示黑屏进bios打开spcr。

2025-03-03 10:21:07 189

原创纯cpu部署vllm运行大模型并对接openwebui

将宿主机的 /home/aimodels/目录挂载到容器内的 /home/llm_deploy 目录。允许容器访问宿主机的共享内存，这对于 PyTorch 等框架在多进程推理时共享数据非常重要。将容器内部的 8000 端口映射到宿主机的 8888 端口，方便从宿主机访问容器内的服务。1、在github上拉取vllm的信息，有dockerfile文件可以直接打包镜像。别的具体信息可以查看open-webui的github的README文件。3、拉取大模型，可以进入魔塔社区拉取需要的镜像。

2025-03-03 09:41:44 3524 5

原创 pxe装系统

http的配置文件默认地址是 /var/www/html/ 可以修改/etc/httpd/conf/httpd.conf修改位置。还需要进iso的文件中isolinux 拷贝vmlinuz和initrd.img 到 /var/lib/tftpboot/可以在要重装的机器上用 dhclient 网卡查看有没有获取到ip。查看系统盘的id ls -l /dev/disk/by-id。10.1.0.1要配置在网卡上或bond上不能再子接口上。ks文件也拷贝到 /var/www/html/中。

2025-02-28 15:13:59 297

原创直通盘做raid无法选中

然后重新进去创建raid界面做raid。都是直通盘做raid无法选中。将所有的都改成raid。

2025-02-28 14:41:18 316

原创配置ipmi地址命令

配置ipmi地址命令。

2025-02-28 14:35:06 928

原创 kvm直接拷贝文件到虚机

通过virsh console 查看会发现里面多了一个192.168.128.0/24 地址段的IP地址。再物理机上直接ssh 192.168.128.0/24的地址就可以直接ssh上去，或者直接scp文件就行。原理：安装libvirt后默认自带一个virbr0的网卡将网卡绑定到虚机上。上传完包后，可用下面命令移除掉网卡。2、将本地文件复制过去。

2025-02-28 14:27:27 374

原创 mysql8 修改密码和登录报错

mysql8修改密码

2025-02-28 14:06:06 282

原创新建ipmi账号

新建ipmi用户

2025-02-28 13:45:41 314

qq_41449217的博客