跨节点走IB网络任务报错

当使用IB网络进行高性能计算(HPC)任务时,遇到错误。故障表现为从千兆网络运行任务正常,但通过IB网络运行时报错。经过排查,发现并非库文件缺失,而是资源限制导致。解决方案是在/etc/security/limits.conf文件中添加软硬限制,允许不限制的内存锁定(memlock),重启后问题得到解决。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.  故障现象,客户HPC任务,走千兆网路正常运算,但是走IB网络报以下错误

 psolid.x           00000000005F55AB  mpp_init_                  68  mpp_init.F
psolid.x           0000000000519C2D  xmp_init_                  91  xmp_init.F
psolid.x           00000000005164BF  pamcsm_                    88  pamcsm.F
psolid.x           0000000000515D90  MAIN__                     26  pcrash.F
psolid.x           0000000000515D1C  Unknown               Unknown  Unknown
libc.so.6          00007FCB4A9B4C36  Unknown               Unknown  Unknown
psolid.x           0000000000515C29  Unknown               Unknown  Unknown
forrtl: error (78): process killed (SIGTERM)
Image              PC                Routine            Line        Source
libpthread.so.0    00007F4E28BFC7E0  Unknown               Unknown  Unknown
libibverbs.so.1    00007F4E23E4BC79  Unknown               Unknown  Unknown
libibverbs.so.1    00007F4E23E4CC08  Unknown               Unknown  Unknown
libmpi.so.1        00007F4E2669A8CF  Unknown               Unknown  Unknown
libmpi.so.1        00007F4E2654CC45&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值