- 博客(21)
- 收藏
- 关注
原创 shell和expect批量拷贝文件到机器并执行
1、背景:云主机环境,无ansible环境,sshpass无法使用,需要批量执行脚本。2、使用shell和expect,上传文件到指定ip并执行脚本。
2025-04-07 17:26:07
254
原创 服务器关闭节能模式
1、服务器进入bios,找到socket configuration中的中的advanced power manazgement configuration。2、找到cpu c state control 关闭cpu repo 和enhanced halt stata,最后保存并退出。
2025-03-14 15:21:34
376
原创 重新打包iso文件,实现自动化安装系统
3、文件修改完成之后可以直接使用软碟通,poweriso将修改的文件放进去,或者在linux中通过xorriso重新打包。2、ks文件可以通过已安装的虚机,查看/root/anaconda-ks.cfg获取。1、先挂载镜像到系统,找到需要修改的文件。在文件中插入你的ks文件存放的位置。可以查看以下网址有详细解释。
2025-03-13 09:34:38
307
原创 openstack常见故障问题处理
迁移的计算节点的nova用户没有免密:在nova的.ssh的目录下拷贝文件到没有免密的那个计算节点。4、当openstack环境是v6的,扩容新的计算节点,需要注意libvirt的配置文件,将。2、迁移虚机报错(包括虚机扩容迁移,虚机计算节点故障疏散虚机)1、新扩容的计算节点,新建虚机报错。镜像文件qcow2问题 更换镜像。计算节点通:计算节点不通加路由。然后重启libvirt服务。
2025-03-10 10:40:37
339
原创 GPU常见故障问题及处理建议
使用cuda自带的检测工具BandwidthTest、P2pBandwidthLatencyTest等程序进行GPU性能检测,不同型号的GPU带宽等表现不同。GPU运行过程中会出现Fan ERR以及功率等ERR报错,可以通过检查nvidia-smi输出中是否包含ERR!GPU识别状态检查,确保lspci命令识别所有GPU,其次确保nvidia-smi 命令识别所有GPU。GPU带宽检查,需要确保GPU当前带宽与额定带宽一致且为x16。用lspci的命令进行gpu带宽检查。3、GPU ERR!
2025-03-10 09:47:40
721
原创 gpu的驱动安装及测试
3、在gpubrun压测时,安装cuda的dcgm可以对接Prometheus,在Grafana中进行温度和功率的图形化展示,对温度和功率进行监控。用–silent --driver --toolkit可以直接运行,静默安装,具体查看官网。运行 bandwidthTest 测试套件,用于主机到设备,设备到主机,设备内部的带宽。2、下载gpu-burn,解压,进入文件,make。5、NCCL带宽测试 ,官网拉取nccl的文件。1、安装cuda驱动。
2025-03-06 15:24:05
348
原创 k8s集群雪崩问题处理
2、由于某个应用无限制的使用节点的 CPU 资源,导致节点上 CPU 使用持续100%运行,而且压榨到了 kubelet 组件的 CPU 使用,这样就会导致 kubelet 和 apiserver 的心跳出问题,节点就会出现 Not Ready 状况了。默认情况下节点 Not Ready 过后,5分钟后会驱逐应用到其他节点,当这个应用跑到其他节点上的时候同样100%的使用 CPU,是不是也会把这个节点搞挂掉,同样的情况继续下去,也就导致了整个集群的雪崩,集群内的节点一个一个的 Not Ready 了。
2025-03-04 15:03:55
229
原创 openstack添加计算节点cpu隔离和大页配置
2、dpdk 8个核由sdn提供 如 FP_MASK=1-4,33-36。需要按照实际来填写,正常占物理机总内存的百分之75到百分之八十。查看自己修改的有没有成功更改过来。10、给flavor设置大页。
2025-03-04 14:45:38
142
原创 open-webui用大模型创建本地知识库
1、部署好openwebui 登录地址 ip+端口 直接注册登录就可以。6、添加模型名称,基础的大模型和选择上传的知识库,保存。2、选择工作空间,点击知识库,选择+号。3、创建知识库的名称和知识库的目标。7、选择刚刚新建的知识库大模型。5、选择工作空间,新建模型。4、上传知识库的文件。
2025-03-03 10:55:42
286
原创 服务器做raid
1、登录对应服务器ipmi地址进入控制台,如果做系统时看不见系统盘需要重新做raid。这里要勾选需要做的raid,除了raid需要选其他默认即可。如果需要再原有基础上做raid需要删个别盘再点创建。点击清楚配置这里要看一下盘数这里将清楚22块盘。2、进入bios界面按F10进入管理。看一下是不是22块要清。重启等待进入系统即可。
2025-03-03 10:42:46
179
原创 纯cpu部署vllm运行大模型并对接openwebui
将宿主机的 /home/aimodels/目录挂载到容器内的 /home/llm_deploy 目录。允许容器访问宿主机的共享内存,这对于 PyTorch 等框架在多进程推理时共享数据非常重要。将容器内部的 8000 端口映射到宿主机的 8888 端口,方便从宿主机访问容器内的服务。1、在github上拉取vllm的信息,有dockerfile文件 可以直接打包镜像。别的具体信息可以查看open-webui的github的README文件。3、拉取大模型,可以进入魔塔社区拉取需要的镜像。
2025-03-03 09:41:44
1001
5
原创 pxe装系统
http的配置文件默认地址是 /var/www/html/ 可以修改/etc/httpd/conf/httpd.conf修改位置。还需要进iso的文件中isolinux 拷贝vmlinuz和initrd.img 到 /var/lib/tftpboot/可以在要重装的机器上用 dhclient 网卡 查看有没有获取到ip。查看系统盘的id ls -l /dev/disk/by-id。10.1.0.1要配置在网卡上或bond上不能再子接口上。ks文件也 拷贝到 /var/www/html/中。
2025-02-28 15:13:59
218
原创 kvm直接拷贝文件到虚机
通过virsh console 查看会发现里面多了一个192.168.128.0/24 地址段的IP地址。再物理机上直接ssh 192.168.128.0/24的地址就可以直接ssh上去,或者直接scp文件就行。原理:安装libvirt后默认自带一个virbr0的网卡将网卡绑定到虚机上。上传完包后,可用下面命令移除掉网卡。2、将本地文件复制过去。
2025-02-28 14:27:27
158
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人