- 博客(4)
- 收藏
- 关注
原创 解决linux环境下编译出现/usr/bin/ld: cannot find -lmkl_... 问题
libtorch230硬编码了一些路径,且在路径设置上是通过叠加的方式,不会覆盖已有设置。更奇怪的是在libtorch230下能成功编译,但在libtorch171下就不行。下的 mkl.cmake 文件的问题。
2025-11-09 01:02:07
151
原创 单机多卡训练torchrun Debug记录
刚开始gpu利用率拉满,但显存一直很低(是因为数据还没开始上传,还处于未通信成功的此状态),10min后报bug(通信的等待时间默认为10min)。运行之后,先gpu利用率提升,后显存上升,gpu利用率处于跳跃数值,成功开始单机多卡训练。可能是CUDA_VISIBLE_DEVICES变量未设置或未生效。单机多卡训练的任务提交过程遇到很多问题,记录一下。尝试以下代码:(CUDA_VISIBLE_DEVICES设为要使用的gpu索引)首先通过以下代码确认当前cuda是否可用,可用的GPU数量。
2025-06-13 20:21:11
817
原创 LeetCode 189. 轮转数组
从k(k是右移的数量)处分割数组,再次进行翻转,思路:考研党感觉是个比较经典的题型了。首先对数组整体进行翻转,
2023-09-16 16:58:12
204
1
原创 leetcode453 最小操作次数使元素相等
最初的思路是每次将最小的n-1个元素加1,以将元素配平的思路来看,将n-1个元素加1相当于将最大值减1,其中最大值与最小值之间的差值变化一致。总的需要调整的次数等于将所有元素都减少到等于元素最小值。
2023-09-16 16:17:24
242
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅