- 博客(28)
- 收藏
- 关注
原创 ibping基本使用 以及 包丢失 超时 排障
本文介绍了ibping工具的基本用法和排障方法。首先通过ibstat获取目标机器的LID号,然后分别在服务端和客户端执行ibping命令进行连接测试。当出现超时丢包问题时,提供了详细的排障步骤清单,包括检查OpenSM服务状态、子网管理器信息、本地InfiniBand状态、固件版本、端口连接状态等,以及网络接口、路由和防火墙配置的验证方法。这些步骤应按顺序执行,帮助诊断和解决ibping连接问题。
2025-08-31 22:27:09
499
原创 MPI-NCCL-TEST 训练自检,基础通信和可用的机器
本文介绍了MPI集群的基本测试方法:1)通过hostname和printenv命令验证节点发现和进程信息;2)使用自编的ping-pong程序测试点对点通信性能;3)利用OpenMPI自带的osu性能测试工具评估带宽、延迟和集体操作性能。此外还提供了MPI排障思路,包括配置SSH无密码登录、检查MPI详细调试信息和尝试不同的进程启动方法。文中给出了具体命令和测试程序代码,适用于Ubuntu和CentOS系统。
2025-08-31 22:13:12
236
原创 NCCL-TEST ib集群测试UCX代替方案
本文介绍了如何配置和使用UCX(Unified Communication X)来优化MPI运行环境。主要内容包括:1)设置环境变量启用UCX并禁用openib;2)提供mpirun命令示例,指定使用UCX传输协议;3)展示了一个完整的本地运行脚本,其中包含环境配置、UCX设置以及通过mpirun执行NCCL测试的示例。该配置可强制使用UCX进行通信,并通过日志记录运行结果。
2025-08-31 22:03:44
288
原创 CentOS 7 & 8 安装 madam
下载适应你系统版本的软件,更详细内容可以搜索,点击summary进入。如果报错可能是存在编译工具不足,安装。mdadm --version 检测。放入服务器, tar 命令解压。
2025-06-30 18:13:04
311
原创 检测和配置RAID的步骤(亲测可行)
Linux下配置RAID阵列指南 本文介绍在Linux系统中配置和管理RAID阵列的完整流程:1)通过cat/proc/mdstat和lsblk检查现有RAID状态;2)使用apt或yum安装mdadm工具;3)详细说明创建RAID1和RAID5的命令及参数;4)配置后检查状态、保存配置的方法;5)常见错误如设备忙、超级块问题的解决方案;6)创建文件系统、挂载及自动挂载设置;7)RAID监控配置方法。包含从安装到排障的全流程操作指令,适用于Debian/Ubuntu和CentOS/RHEL系统。
2025-06-30 18:04:52
540
原创 ==> Downloading and installing Homebrew...remote: Enumerating objects: 303642, HomeBrew安装问题
HomeBrew安装问题,安装过程长期卡顿==> Downloading and installing Homebrew...remote: Enumerating objects: 303642, done.remote: Counting objects: 100% (328/328), done.remote: Compressing objects: 100% (183/183), done.
2025-06-19 11:28:09
925
原创 HomeBrew MAC PRO 安装教程
摘要:本文介绍了Mac系统上Homebrew的完整安装与使用指南。首先说明如何通过xcode-select安装必要工具,然后提供两种Homebrew安装方式(推荐使用官方脚本)。接着讲解环境变量配置方法及验证安装成功的步骤。重点介绍了5个实用技巧:1)通过镜像源和预编译包加速安装;2)版本管理(特定版本安装/清理旧版本);3)服务管理(启动/停止后台服务);4)使用Brewfile批量管理软件;5)安装GUI应用和第三方仓库的特殊方法。文中还包含国内用户镜像源优化等实用优化建议。
2025-06-19 11:20:34
708
原创 Django MAC Pycharm 命令行建立项目,注册app运行失败,找不到views导入包
在PyCharm中直接建立或打开非Django项目后手动创建Django项目时,容易出现app无法导入views的问题,原因是项目目录结构错误(Django项目成为子目录而非根目录)。解决方法:1) 优先使用PyCharm直接创建Django项目;2) 若不可行,则需以Django项目为根目录重新打开,并重置环境(通过PyCharm终端重新pip安装Django和创建app)。注意必须使用PyCharm内置终端操作,确保环境路径正确,这样才能解决模块导入问题。
2025-06-16 20:33:26
223
原创 pip install mysqlclient 失败,mysqlclient安装教程
摘要:在Windows系统直接使用pip安装mysqlclient可能失败,建议采取替代方案。可搜索mysqlclient的wheel文件,或前往PyPI官网下载对应版本的wheel文件,再通过本地pip进行安装。这种方法能有效解决安装问题,确保成功安装mysqlclient包。
2025-06-16 19:46:38
343
原创 Django 创建APP urls.py path views.index 报错,NameError: name ‘views‘ is not defined
Django 创建APP urls.py path views.index 报错,NameError: name 'views' is not defined
2025-06-16 18:16:41
333
原创 Could not load dynamic library ‘cudart64_110.dll‘; 多版本解决方案
另外,出现这种问题,针对30系列显卡使用最新版本的tenserflow,可能出现我这种问题,其他40系列可能会出现“cusolver64_10.dll not found”类似问题。直接下载缺失文件到cuda的bin目录下,缺什么下载什么(别觉得简单,我看了很多博看,这是最直观的解决方案)总之报错信息就是提醒你有一部分文件没有导入或者没有发现,其他回答中可能会有更详细的解释,但。关于cuda安装位置,如果你忘记的话,可以去看看环境变量,上面有。
2024-05-15 17:37:05
1181
2
原创 ansible 指定roles&collections 安装路径
一般是写在ansible.cfg配置文件里,如果你搜这个问题,你大概率是解决RHCE考试中角色和集合使用问题,/home/greg/ansible/roles 和 /usr/share/ansible/roles/如果出现要求让你安装到其他路径,常规思路是将配置文件再加一条。此时你需要吧需要的路径,放在第一位,并且卸载原来的role。
2024-04-15 20:17:08
707
1
原创 podman run --name -d -v src:src:Z 和 z 大Z和小z的区别
它会在没有明确指定SELinux安全上下文时,将默认的SELinux安全上下文应用于挂载点或文件。这通常用于确保容器可以访问指定的主机文件系统路径,并且具有正确的SELinux权限,而无需明确指定安全上下文。所以,它们的区别在于一个是将指定的安全上下文应用于挂载点或文件,另一个是传播当前的安全上下文到挂载点或文件。标志时,实际上是指定了"z"选项的默认值。在代码中没有明显的区别,都是在设置或传播SELinux安全上下文。所以,在没有给指定的参数情况下,大写的。在Docker命令中,大写的 -Z。
2024-04-15 11:31:42
614
1
原创 return t.to(device, dtype if t.is_floating_point() or t.is_complex() else None 【最全问题解决方案】
一般情况下前三个可以解决问题,大概率是你复制或者摘过来代码中,原作者设备和你的不匹配导致的,你需要仔细检查,或者是使用.to(device)把计算放入你自己的单个或多个显卡设备。建议直接用命令行制定执行时候的环境变量。
2024-03-23 15:34:58
3308
原创 RHCSA 相关命令与参数详解
RHCSAsemanage 命令参数详解;restorecon 命令参数详解; setfacl 命令参数详解; crontab 命令参数详解; chmod 命令参数详解; tar 命令参数详解; lvextend lvcreate 命令参数详解; 逻辑卷命令参数详解; swap 交换分区 命令参数详解; 容器podman 命令参数详解;
2024-03-15 18:06:31
459
1
原创 Ansible运行中,Roles_path参数的多个地址用法与解释
运行playbook会自动去三个默认目录寻找所使用的role,你也可以通过修改ansible配置文件来修改默认目录,这些目录可以是多个,使用“:”隔开。当你运行playbook时,所调用的role会去。
2024-03-05 16:49:50
580
原创 SELinux-Booleans(布尔值)参数详解与案例演示
selinux,getsebool,setsebool,semanage使用,举例,httpd服务的策略中的【httpd_enable_homedirs】,演示selinux的布尔值使用
2023-12-09 15:47:15
1044
原创 ValueError: File context for /custom(/.*)? already defined
原因:缺省的SELinux安全上下文已经被定义,不用重复定义,可以直接重置[root@servera ~]# semanage fcontext -a -t httpd_sys_content_t '/custom(/.*)?'ValueError: File context for /custom(/.*)? already defined[root@servera ~]# restorecon -Rv /custom/
2023-12-09 10:54:31
337
原创 AutoNFS,自动挂载 配置文件示例 环境:Rhel9
编辑zh配置文件,这个文件位置是固定的,都在【/etc/auto.master.d】目录下创建,【direct.autofs】是自己定义的文件,文件名任意,但是后缀必须是 .autofs。-rw,sync,fstype=nfs4 是配置参数,"-rw”代表读写权限,"sync"代表同步,一般服务器都会开始使用这个参数,“fstype=nfs4”是使用nfs协议4版本。“serverb:/shares/indirect/&”是被挂载的文件,格式为:“ 服务器:目录”(&代表这个目录中所有子目录都被挂载)
2023-12-06 16:48:33
439
1
原创 Ansible “module_stderr“: “Shared connection to servera closed.\r\n“ 权限问题解决方案
Ansible 权限问题解决方案(非python版本问题) "module_stderr": "Shared connection to servera closed.\r\n" "module_stdout": "sudo: a password is required\r\n" "msg": "MODULE FAILURE\nSee stdout/stderr for the exact error"
2023-10-13 14:09:26
1838
2
原创 CentOS-Stream 8 安装docker
CentOS-Stream 8 安装docker 、try to add--allowerasing' to command line to replace conflicting packages、error:Problem l: problem with installed package podman-3:4.6.1-4.module el8+664+4072b3ae.x86 64
2023-09-21 16:03:52
487
原创 Linux虚拟化(在RHEL8环境安装Vmware)
Linux虚拟化(在RHEL8环境安装Vmware) & 解决Before you can run VMware, several modules must be compiled andloaded into the running kernel.GNU C Compiler (gcc) version 8.2.1 was not found.
2023-09-17 20:50:59
372
1
原创 最新解决:Unable to read consumer identityThis system is not registered to Red Hat Subscription Managemen
红帽8 RHEL8 最新解决:Unable to read consumer identityThis system is not registered to Red Hat Subscription Managemen // Failed dependencies: l warning: rpmts HdrFromFdno: Header V3 DSA signature: NOKEY,key ID*****
2023-09-11 21:45:51
6951
4
原创 Resnet网络回归的简单实现与经典错误解析
残差神经网络 Resnet 代码运行 Python pytorch 实践代码 代码实战 错误解决
2023-04-24 09:42:23
2602
3
原创 d2l.load_array在pycharm中安装失败问题
d2l.load_array在pycharm中安装失败问题Dataloaderload_array
2022-12-04 14:37:12
1719
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅