- 博客(5)
- 收藏
- 关注
原创 深度学习报错“Compile with TORCH_USE_CUDA_DSA to enable device-side assertions”解决方法
在使用PyTorch进行深度学习模型训练时,尤其是依赖GPU加速的情况下,偶尔会遇到一些与CUDA相关的错误提示。最近我在训练模型时,就碰到了一个这样的报错:Compile with ‘TORCH_USE_CUDA_DSA’ to enable device-side assertions.这个错误是在调用进行反向传播时触发的。经过一番排查,我发现问题的根源是GPU显存不足,最终通过降低batch_size解决了这个报错。今天,我就把这个问题的分析和解决过程分享出来,希望能帮到遇到类似问题的朋友!
2025-03-06 11:03:14
1771
原创 TensorRT推理报错解决:Error Code 1: Cask (Cask convolution execution)
经验教训在多显卡环境中使用TensorRT时,模型不在同一显卡上运行可能触发设备不匹配或上下文错误。也许有别的方法多卡部署,找到方法继续更新。
2025-02-28 22:08:02
402
原创 nn-Unet/STU-Net 踩坑记录
目的是在私有数据集上微调STU-Net ,跑了接近两天才跑通,记录过程中的一些坑。持续更新.............................
2024-12-16 11:23:04
65
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人