【问题解决】ib_write_bw报错segfault at 1b1 ip 00007f80f540a137 sp 00007ffc26ac1ae0 error 4 in librdm?

部署运行你感兴趣的模型镜像

背景

使用支持cuda的ib_write_bw的时候报错

现象

[433534.538836] ib_write_bw[828449]: segfault at 1b1 ip 00007f80f540a137 sp 00007ffc26ac1ae0 error 4 in librdmacm.so.1.3.48.0[7f80f5400000+19000]
[433534.538845] Code: ff 4c 89 f2 4c 89 ee b9 80 00 00 00 48 8d bb 98 00 00 00 e8 fb a6 ff ff 48 8b 45 08 ba 18 01 00 00 48 89 de 66 44 89 74 24 12 <8b> 38 44 89 7c 24 0c e8 5d a3 ff ff 3d 18 01 00 00 75 46 48 8d bd
[779099.041607] traps: ib_write_bw[2724906] general protection ip:7fa0a430624a sp:7fffe0611b80 error:0 in libcuda.so.550.54.15[7fa0a4160000+498000]
[779099.041731] traps: ib_write_bw[2724782] general protection ip:7f429610624a sp:7ffeba9b6070 error:0 in libcuda.so.550.54.15[7f4295f60000+498000]

在这里插入图片描述

原因

执行了使用cuda的内存,但是指定的gpuid不存在

./ib_write_bw  --use_cuda=4&
./ib_write_bw 1.1.1.2  --use_cuda=4

内核部分信息

在这里插入图片描述

分析

可能是由于指定gib_write_bw的时候尝试从cuda去分配内存,没拿到造成异常。下一步确认下GPU的信息,以及id等信息。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值