自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 shell和expect批量拷贝文件到机器并执行

1、背景:云主机环境,无ansible环境,sshpass无法使用,需要批量执行脚本。2、使用shell和expect,上传文件到指定ip并执行脚本。

2025-04-07 17:26:07 254

原创 对象存储常用命令

对象存储常用命令。

2025-03-24 15:03:51 216

原创 ansible自动压测gpu脚本

ansible自动压测gpu脚本。

2025-03-21 15:38:03 299

原创 服务器关闭节能模式

1、服务器进入bios,找到socket configuration中的中的advanced power manazgement configuration。2、找到cpu c state control 关闭cpu repo 和enhanced halt stata,最后保存并退出。

2025-03-14 15:21:34 376

原创 重新打包iso文件,实现自动化安装系统

3、文件修改完成之后可以直接使用软碟通,poweriso将修改的文件放进去,或者在linux中通过xorriso重新打包。2、ks文件可以通过已安装的虚机,查看/root/anaconda-ks.cfg获取。1、先挂载镜像到系统,找到需要修改的文件。在文件中插入你的ks文件存放的位置。可以查看以下网址有详细解释。

2025-03-13 09:34:38 307

原创 openstack常见故障问题处理

迁移的计算节点的nova用户没有免密:在nova的.ssh的目录下拷贝文件到没有免密的那个计算节点。4、当openstack环境是v6的,扩容新的计算节点,需要注意libvirt的配置文件,将。2、迁移虚机报错(包括虚机扩容迁移,虚机计算节点故障疏散虚机)1、新扩容的计算节点,新建虚机报错。镜像文件qcow2问题 更换镜像。计算节点通:计算节点不通加路由。然后重启libvirt服务。

2025-03-10 10:40:37 339

原创 GPU常见故障问题及处理建议

使用cuda自带的检测工具BandwidthTest、P2pBandwidthLatencyTest等程序进行GPU性能检测,不同型号的GPU带宽等表现不同。GPU运行过程中会出现Fan ERR以及功率等ERR报错,可以通过检查nvidia-smi输出中是否包含ERR!GPU识别状态检查,确保lspci命令识别所有GPU,其次确保nvidia-smi 命令识别所有GPU。GPU带宽检查,需要确保GPU当前带宽与额定带宽一致且为x16。用lspci的命令进行gpu带宽检查。3、GPU ERR!

2025-03-10 09:47:40 721

原创 gpu的驱动安装及测试

3、在gpubrun压测时,安装cuda的dcgm可以对接Prometheus,在Grafana中进行温度和功率的图形化展示,对温度和功率进行监控。用–silent --driver --toolkit可以直接运行,静默安装,具体查看官网。运行 bandwidthTest 测试套件,用于主机到设备,设备到主机,设备内部的带宽。2、下载gpu-burn,解压,进入文件,make。5、NCCL带宽测试 ,官网拉取nccl的文件。1、安装cuda驱动。

2025-03-06 15:24:05 348

原创 virsh常用命令

查看虚机在物理机上走的网桥。设置虚拟机开机自动启动。设置取消虚拟机自动启动。查看net的详细信息。

2025-03-06 14:45:53 222

原创 k8s集群雪崩问题处理

2、由于某个应用无限制的使用节点的 CPU 资源,导致节点上 CPU 使用持续100%运行,而且压榨到了 kubelet 组件的 CPU 使用,这样就会导致 kubelet 和 apiserver 的心跳出问题,节点就会出现 Not Ready 状况了。默认情况下节点 Not Ready 过后,5分钟后会驱逐应用到其他节点,当这个应用跑到其他节点上的时候同样100%的使用 CPU,是不是也会把这个节点搞挂掉,同样的情况继续下去,也就导致了整个集群的雪崩,集群内的节点一个一个的 Not Ready 了。

2025-03-04 15:03:55 229

原创 openstack添加计算节点cpu隔离和大页配置

2、dpdk 8个核由sdn提供 如 FP_MASK=1-4,33-36。需要按照实际来填写,正常占物理机总内存的百分之75到百分之八十。查看自己修改的有没有成功更改过来。10、给flavor设置大页。

2025-03-04 14:45:38 142

原创 open-webui用大模型创建本地知识库

1、部署好openwebui 登录地址 ip+端口 直接注册登录就可以。6、添加模型名称,基础的大模型和选择上传的知识库,保存。2、选择工作空间,点击知识库,选择+号。3、创建知识库的名称和知识库的目标。7、选择刚刚新建的知识库大模型。5、选择工作空间,新建模型。4、上传知识库的文件。

2025-03-03 10:55:42 286

原创 服务器做raid

1、登录对应服务器ipmi地址进入控制台,如果做系统时看不见系统盘需要重新做raid。这里要勾选需要做的raid,除了raid需要选其他默认即可。如果需要再原有基础上做raid需要删个别盘再点创建。点击清楚配置这里要看一下盘数这里将清楚22块盘。2、进入bios界面按F10进入管理。看一下是不是22块要清。重启等待进入系统即可。

2025-03-03 10:42:46 179

原创 linux系统进单用户显示黑屏

linux系统进单用户 显示黑屏 进bios打开spcr。

2025-03-03 10:21:07 119

原创 纯cpu部署vllm运行大模型并对接openwebui

将宿主机的 /home/aimodels/目录挂载到容器内的 /home/llm_deploy 目录。允许容器访问宿主机的共享内存,这对于 PyTorch 等框架在多进程推理时共享数据非常重要。将容器内部的 8000 端口映射到宿主机的 8888 端口,方便从宿主机访问容器内的服务。1、在github上拉取vllm的信息,有dockerfile文件 可以直接打包镜像。别的具体信息可以查看open-webui的github的README文件。3、拉取大模型,可以进入魔塔社区拉取需要的镜像。

2025-03-03 09:41:44 1001 5

原创 pxe装系统

http的配置文件默认地址是 /var/www/html/ 可以修改/etc/httpd/conf/httpd.conf修改位置。还需要进iso的文件中isolinux 拷贝vmlinuz和initrd.img 到 /var/lib/tftpboot/可以在要重装的机器上用 dhclient 网卡 查看有没有获取到ip。查看系统盘的id ls -l /dev/disk/by-id。10.1.0.1要配置在网卡上或bond上不能再子接口上。ks文件也 拷贝到 /var/www/html/中。

2025-02-28 15:13:59 218

原创 直通盘 做raid无法选中

然后重新进去创建raid界面 做raid。都是直通盘 做raid无法选中。将所有的都改成raid。

2025-02-28 14:41:18 214

原创 配置ipmi地址命令

配置ipmi地址命令。

2025-02-28 14:35:06 185

原创 kvm直接拷贝文件到虚机

通过virsh console 查看会发现里面多了一个192.168.128.0/24 地址段的IP地址。再物理机上直接ssh 192.168.128.0/24的地址就可以直接ssh上去,或者直接scp文件就行。原理:安装libvirt后默认自带一个virbr0的网卡将网卡绑定到虚机上。上传完包后,可用下面命令移除掉网卡。2、将本地文件复制过去。

2025-02-28 14:27:27 158

原创 mysql8 修改密码和登录报错

mysql8修改密码

2025-02-28 14:06:06 178

原创 新建ipmi账号

新建ipmi用户

2025-02-28 13:45:41 193

home-assistant的hacs安装包

home-assistant的hacs安装包

2025-03-11

docker-28.0.1

docker-28.0.1tar包

2025-03-10

python3.7.0a1安装包

python安装

2025-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除