- 博客(144)
- 资源 (1)
- 收藏
- 关注
原创 安装pytorch报错
1、把这个链接:https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/scripts/inference/gradio_demo.py 里的gradio_demo.py和requirements.txt下载到服务器。2、修改requrement.txt里的torch版本为2.0.0,然后安装requirements.txt。或更高版本,而下面的显示的是11.7版本,计划重新下载pytorch。进入Llama2文件夹:cd /tmp/llm2。
2024-09-24 10:41:14
463
原创 bandwidthTest测试结果分析
是一个有效的工具,用于评估 GPU 和主机之间的带宽性能。通过分析和带宽,可以发现系统中的潜在瓶颈并进行优化。H100 这种高性能显卡在显存带宽方面表现出色,使用和优化 PCIe 通道可以最大化数据传输效率。
2024-09-22 15:41:05
2612
原创 SR655 OCP3 网卡Legacy PXE 轮循设置
2、步骤1,更改Boot Mode 为Legacy保存退出重启服器后,再次进入UEFI确认后保存退出。1、更改UEFI Boot Mode为UEFI,保存重启服务器,再次进入UEFI界面调整如下图例。更改如下所有网卡legacy 为PXE。后将Boot Mode 更改为legacy,保存退出。4、当四个网口PXE获取失败后重新Retry 回到第一个网口PXE开始一直轮循。3、如下图例从第一个网口PXE到最后一个网口PXE。如下图例操作依次更改所有网卡口。
2024-06-26 20:42:46
325
原创 1288 HV5机器断电重启后无法开机
有4台服务器在增配内存和硬盘后上电无法开机,出现黄灯告警,状态码888,管理网不通开始一直认为是增配的内存条的插法有问题,调整内存条顺序后还是一样的故障查找资料发现ibmc有问题,需要升级固件,否则得更换主板解决。
2024-05-06 15:30:46
673
原创 使用ipxe安装现有的装机环境
综上所述,iPXE相比传统PXE提供了更多的网络协议支持、更强大的功能和安全性,以及服务器从盘启动的额外能力。这些特点使得iPXE成为了一个更先进、更灵活的网络启动解决方案。iPXE和传统PXE(Pre-boot Execution Environment,预启动执行环境)的主要区别在于它们的功能和协议支持。pxe环境下,default文件配置http协议,拉取文件时卡住。解决方法:修改default文件,添加关于界面显示的参数。结论:pxe环境不支持http协议。结论:pxe不支持http协议。
2024-04-25 16:00:37
2436
原创 内存性能测试
STREAM测试及相关说明STREAM测试工具是由时为美国Delaware大学教授 John McCalpin提出和完成的, 现在随着John McCalpin教授的工作变动, 负责 STREAM 的维护和改进的所有工作人员也转移到了Virginia大学的计算机科学系。STREAM是一套综合性能测试程序集,通过fortran和C两种高级且高效的语言编写完成,由于这两种语言在数学计算方面的高...
2023-12-07 11:03:53
1578
1
原创 cpupower命令
一般在服务器 BIOS 中修改电源管理为 Performance,如果发现 CPU 模式为 conservative 或者 powersave,可以使用 cpupower 设置 CPU Performance 模式,效果也是相当显著的。linux内核支持调节CPU主频,降低功耗,已到达节能的效果。对于移动设备和笔记本来说,在没有接通电源的时候,续航是很重要的。对于服务器,一般都是接着电源的,而且要求性能比较高,因此,建议关闭 CPU 的动态调节功能,禁止 CPU 休眠,并把 CPU 频率固定到最高。
2023-11-21 10:17:42
1278
原创 ubuntu系统输入正确密码无法登陆
ubuntu16.04.6系统输入正确密码无法登陆,仍然跳转到登陆界面。2、删除/run/nologin文件,普通用户可正常登陆。
2023-11-02 10:36:01
1970
原创 redis常用操作命令
string是redis最基本的类型,一个key对应一个value。每个元素都会关联一个double类型的分数。hmget key filed [filed...] #查看对象内多个filed的值。incr key #将key对应的值加1 ,值是字符串类型的数字。lset key index value #设置指定索引的value值。incrby key #将key对应的值加一个整数。decrby key #将key对应的值减一个整数。
2022-12-01 16:01:35
945
原创 json数据
一个api接口调用post请求import urllib2,jsonurl='http://xxx.xxx.com.cn/api/v1'data=json.dumps({'organId':'1'}) #数据headers={'Content-Type':'application/json'} #头部request = urllib2.Request(url,data,headers) #urllib2用一个Request对象来映射你提出的HTTP
2022-04-12 17:55:51
5752
原创 python 时间模块
time模块import time#time():返回当前时间戳,返回浮点型c=time.time()print(c)#返回值:1641370103.594336#gtime() 将时间戳转换为标准时间g=time.gmtime(c)print(g)#返回值:time.struct_time(tm_year=2022, tm_mon=1, tm_mday=5, tm_hour=8, tm_min=8, tm_sec=23, tm_wday=2, tm_yday=5, tm_i.
2022-01-06 14:29:56
678
原创 gitlab和jenkins
1.安装gitlab[root@server1 ~]# yum install policycoreutils-python.x86_64 ##解决依赖性[root@server1 ~]# rpm -ivh gitlab-ce-11.2.0-ce.0.el7.x86_64.rpm warning: gitlab-ce-11.2.0-ce.0.el7.x86_64.rpm: Header V4 RSA/SHA1 Signature, key ID f27eab47: NOKEYPreparing.
2021-12-02 14:49:55
316
原创 ubuntu14.04系统+cx5网卡驱动安装
场景:华三测试机配置的cx5网卡,装好ubuntu14.04的系统后,发现网卡无法识别lspci | grep Ethethtool eth0 #没有此设备解决方法:1、在官网下载驱动包,由于网络不通,我下载的为iso镜像进行远程挂载Linux InfiniBand Drivers2、在远程桌面挂载网卡iso镜像3、挂载虚拟硬盘并安装驱动mount /dev/sr0 /mntcd /mntls./mlnxofedinstall #由于...
2021-10-26 14:44:58
1490
1
原创 Linux /usr/src/kernels 目录为空的解决方法
容器业务使用centos7.3新升级的内核5.4.152编译模块时报错configure:error:Invaild kernel source directory /lib/modules/5.4.152-el7.elrepo.x86_64/sourcecd到/usr/src/kernels目录为空解决方法:再使用elrepo源升级内核时少安装了kernel-lt-devel-5.4.152-1.el7.elrepo.x86_64.rpm包导致编译时出错,重新下载rpm包即可.
2021-10-25 15:27:26
3446
原创 系统故障排查
业务反馈机器在重启后无法进入系统,通过BMC桌面远程查看,发现机器卡在如下界面:解决方法:查看资料决定在单用户模式下注释掉数据盘,重新启动后进入了系统,在系统中重新挂载数据盘时出现报错,原因是/dev/nvme0n1p1数据盘在文件系统从ext4变为xfs时,并未完全格式化,还保持着原来的文件系统,但是/etc/fstab文件中已经被业务改成新的文件系统了...
2021-09-14 14:25:45
709
原创 普罗米修斯监控入门
安装普罗米修斯从https://prometheus.io/download/下载相应版本安装包tar zxf prometheus-2.29.2.linux-amd64.tar.gz -C /usr/local/mv /usr/local/prometheus-2.29.2.linux-amd64/ /usr/local/prometheuscd /usr/local/prometheus./prometheus --version #验证安装cat prometh...
2021-08-31 13:27:07
1437
原创 jq学习
一、jq 简介JSON 是一种轻量级且与语言无关的数据存储格式,易于与大多数编程语言集成,也易于理解 。虽然它以 JavaScript 开头,而且主要用于在服务器和浏览器之间交换数据,但现在正在用于许多领域,包括嵌入式系统。JSON是前端编程经常用的格式,对于PHP或Python,解析JSON很容易,尤其是PHP的json_encode和json_decode。Linux下处理JSON的神器是jq。对于JSON格式而言,jq就像sed/awk/grep这些神器一样的方便,jq没有乱七八糟的依赖,只需要一
2021-05-21 17:24:48
576
原创 Ubuntu之apt-get update 升级错误
今天在使用 apt-get update 时报错Ign:12 http://10.4.20.33/deblink_trusty Packages Ign:8 http://10.4.20.33/deblink_trusty Translation-en_USIgn:10 http://10.4.20.33/deblink_trusty Translation-enIgn:11 http://10.4.20.33/deblink_trusty Translation-en_US.UTF-8
2021-02-24 17:38:01
453
原创 升级sudo版本,修复漏洞
linux系统管理指令Sudo出现重大漏洞!影响绝大多数Linux系统参考文档:https://mp.weixin.qq.com/s/hxCHt-2NIadEKyzfNcooBQ升级centos/ubuntu系统sudo版本更新ubuntu sudo版本sudo命令官方下载链接:https://www.sudo.ws/download.html1.建立一个目录/data/Test,用于放所有下载的软件包 ...
2021-01-28 16:18:28
1682
1
原创 RAID卡更新驱动
编译驱动解压驱动包tar -zxvf megaraid_sas-07.712.02.00-src.tar.gz 进入目录后执行./compile.sh[root@megaraid_sas-07.712.02.00]# bash compile.shcompile.sh: line 39: ./clean.sh: No such file or directorycompile.sh: line 40: ctags: command not foundmake: *** /lib/mod.
2020-12-21 17:11:08
3391
3
原创 服务器主板网卡接口Dedicate lan和share lan的区别
Dedicate lan和share lan的区别简单来说,BIOS中BMC设置有两个网口设置,Dedicate lan和share lan。dedicate lan顾名思义就是专门的口,一般服务器主板上板载有3个网口,2个i350口和一个BMC管理口,这个BMC的管理口就是dedicate lan,连接这个网口,输入dedicate lan ip可以访问BMC管理界面。share lan,简单理解就是可以共享的网口,设置好share lan后,网线连接主板板载i350的网口,输入share lan的i
2020-11-20 14:53:55
16787
2
原创 关于CPU C-States 省电模式
C-States模式为了在CPU空闲的时候降低功耗,CPU可以被命令进入low-power模式。每个CPU都有几种power模式,这些模式被统称为C-states或者C-modes。lower-power模式最早在486DX4处理器上被引入,到现在,更多power mode被引入和增强,来进一步降低CPU的功耗。这些模式最基本的思想是通过CPU内部的idle unit切断CPU的clock信号和供电。越多的CPU单元被停止(通过切断时钟),降低电压或者完全关闭,降低的功耗就越多,但同时也需要更多
2020-11-10 15:44:37
6403
原创 重做raid后,重启无法进入系统
系统盘不变,将数据盘raid等级由raid5改为raid10,重启服务器后出现如下报错:在检查文件系统时出现报错解决方法1、在(or type control -D to continue):后面输入root密码后回车,进入以后编辑/etc/fstab,在编辑该文件的时候,系统提示该文件为只读,无法编辑,则执行:fsck -ay(有的系统需要分开执行这两个参数),完后重启。如果还不行的话,则执行第2步:2、在(or type control -D to continue):后面输入ro.
2020-10-23 11:06:09
7211
原创 xfs文件系统修复
服务器磁盘文件系统经常报如下错误:cd /dev/sdf1lsls: cannot open directory .: Input/output error #显示输入/输出错误修改包括三步:卸载,修复和检查umount /dev/sdf1xfs_repair /dev/sdf1Phase 1 - find and verify superblock...Phase 2 - using internal log - zero log...ERRO...
2020-10-19 16:44:35
5978
原创 NUMA学习
NUMA概念比如一台机器是有2个处理器,有4个内存块。我们将1个处理器和两个内存块合起来,称为一个NUMA node,这样这个机器就会有两个NUMA node。在物理分布上,NUMA node的处理器和内存块的物理距离更小,因此访问也更快。比如这台机器会分左右两个处理器(cpu1, cpu2),在每个处理器两边放两个内存块(memory1.1, memory1.2, memory2.1,memory2.2),这样NUMA node1的cpu1访问memory1.1和memory1.2就比访问memo
2020-09-24 12:24:05
1079
原创 磁盘io优化排查
哪些问题会导致磁盘缓慢?1)应用程序设计的缺陷和数据库查询的滥用、操作人员的失误、都有可能导致性能问题2)性能瓶颈可能是因为程序设计缺陷/内存太小/磁盘有损坏、性能差,但是最终都是CPU耗尽的结果(这就话很实用),系统负载极高,响应迟缓,甚至暂时失去响应。登陆不上机器。3)由于linux的swap机制。物理内存不够时会使用交换内存(可以调优参数),大量使用swap会带来磁盘I0进而导致CPU消耗4)可能造成cpu瓶颈的问题:频繁执Perl,php,java程序生成动态web;数据库查询大量的
2020-09-09 14:20:14
2201
原创 自动化运维工具ansible之模块学习
一、ansible学习Ansible是一种自动化运维工具,基于paramiko开发的,并且基于模块化工作,Ansible是一种集成IT系统的配置管理、应用部署、执行特定任务的开源平台,它是基于python语言,由Paramiko和PyYAML两个关键模块构建。集合了众多运维工具的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能.ansible是基于模块工作的,本身没有批量部署的能力.真正具有批量部署的是ansible所运行的模块,ansible只是提供一种框架.ansible不需要在远程主机上
2020-09-07 11:40:34
282
原创 nvidia-smi命令学习
问题配置了4颗NVIDIA P40 24GGPU的服务器,业务反馈在系统中只能显示3颗显卡查看bmc,并没有发现异常。查看系统日志如下,有一些重新初始化失败的报错解决方法厂商建议开启GPU的持久模式。gpu默认持久模式关闭的时候,GPU如果负载低,会休眠。之后唤起的时候,有一定几率失败,nvidia-smi -pm 1 这个命令可以使GPU一直保持准备工作的状态nvidia-smi -pm 1 #开启持久模式之后观察下来,gpu的运行稳定,没有类似的情况发生n...
2020-09-01 14:31:51
5525
1
原创 ipmitool常用命令详解
ipmitool命令ipmitool –I [open|lan|lanplus] commandOpenIPMI接口,command有以下项: raw:发送一个原始的IPMI请求,并且打印回复信息。 Lan:配置网络(lan)信道(channel) chassis :查看底盘的状态和设置电源 event:向BMC发送一个已经定义的事件(event),可用于测试配置的SNMP是否成功 mc:查看MC(...
2020-08-26 16:05:11
46846
1
原创 smartctl命令
smartctl命令1、什么是S.M.A.R.T.SMART是一种磁盘自我分析检测技术,早在90年代末就基本得到了普及,每一块硬盘(包括IDE、SCSI)在运行的时候,都会将自身的若干参数记录下来。这些参数包括型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。硬盘运行了几千小时后,很多内在的物理参数都会发生变化,某一参数超过报警阈值,则说明硬盘接近损坏,此时硬盘依然在工作,如果用户不理睬这个报警继续使用,那么硬盘将变得非常不可靠,随时可能故障2、启用SMART查看是否开启了smart功能
2020-07-31 16:26:13
1191
1
原创 SAS3008卡故障硬盘定位
SAS3008卡故障硬盘定位SAS3008卡检测硬盘读写出问题,但是无法通过sas3ircu命令直接定位出硬盘槽位,需要结合smartctl命令进行查看服务器型号:SA5212M5raid卡型号:SAS3008卡一、dmesg
2020-07-20 16:08:13
3685
原创 Linux查看网卡驱动|更新驱动
查看网卡型号# lspci | grep "Eth"Intel Corporation I350 为Intel的双口千兆网卡 x722是一款板载以太网卡模块,提供2个10GE端口和2个GE端口 x710为扩展网卡,有2个10G口 x722和x710的网卡驱动模块都为i40e扩展卡为82599ES网卡,通过查询得知82599ES为X520类型。驱动为ixgbe查看网卡驱动信息ethtool -i eth2modinfo i40e升级网卡驱动将网卡驱动升级至2.4
2020-07-15 21:13:35
14409
1
原创 Linux下复制命令的脚本
Linux下复制命令的脚本在制作linux小系统时,我们需要复制需要用到的命令到指定目录,同时包括一些命令所依赖的库文件[root@wxxdc-sys-ilodhcp01 ~]# which ls #二进制命令所在路径alias ls='ls --color=auto' /bin/ls[root@wxxdc-sys-ilodhcp01 ~]# ldd /bin/ls #ldd命令查看命令所依赖的库文件 linux-vdso.so.1 => ...
2020-07-14 15:16:45
1481
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人