- 博客(21)
- 收藏
- 关注
原创 Llama Factory 报错:No package metadata was found for The ‘unsloth‘ distribution was not found
Llama Factory 报错:importlib.metadata.PackageNotFoundError: No package metadata was found for The 'unsloth' distribution was not found and is required by this application.成功安装后即可正常运行。
2024-09-03 16:10:14
645
原创 运行 PointNetPP报错: CUDA kernel failed : no kernel image is available for execution on the device
把这个路径下所有.cu后缀文件中的CUDA_CHECK_ERRORS()注释掉,网上一直说是pytorch版本与cuda版本的问题,但是试了很多版本都解决不了。并且重新运行 pointnetpp 的 setup.py 安装编译。进入pointnetpp -> _ext_src -> src。
2024-07-15 14:13:29
478
转载 nvcc fatal : Unsupported gpu architecture ‘compute_37‘解决
先检查ninja是否安装好了,安装好了还报以上错误再试下面的方法。打开pointnet2_ops_lib中的setup.py文件。将这个3.7+PTX删了,再安装就好了。在安装Pointnet2时遇到报错,
2024-06-26 17:11:26
366
原创 ok-robot 环境安装
和GroundingDINO/,以及lang-segment-anything都手动安装,可参考以下issue。建议使用mamba安装env-cu118.yml报错之后,
2024-06-19 16:02:23
290
原创 解决 :libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found
将环境中的libstdc++.so.6与anaconda3虚拟环境中的链接起来就行了。既然已经存在了上述目标文件,所以只需要重新创建。发现GLIBCXX_3.4.30是存在的。能够识别到这个目标文件就可以了。
2024-06-17 14:18:58
2955
原创 self and mat2 must have the same dtype, but got Float and Half 报错解决
查阅很久都是让修改模型输入,但一直不行。
2024-06-06 17:00:38
688
1
原创 windows端vscode清除本地ssh缓存
进入c盘-用户-.ssh,先把known_hosts和known_hosts_old都给删除了,然后进去Appdata-Roaming-Code,把缓存数据删了。这种方法适用于连接服务器端不同docker容器出现错误时,比如新老容器使用同一个端口,但是vscode连接不上新的容器。
2024-05-27 16:11:28
3273
原创 libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found 解决
安装的pytorch版本:pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=11.3。起初一直在纠结是不是open3d的锅,后经高人指点发现前面的报错提到了GLIBCXX_3.4.30' not found,后谷歌采用。在运行embodiedscan的demo代码时要用到open3d,但是一直报错。版本过高,安装低1.8及以下版本scipy即可解决冲突,顺利运行。系统版本:ubuntu 22.04。
2024-05-15 15:17:14
1093
1
原创 记录MinkowskiEngine 安装过程中的踩坑经历
先使用 pip uninstall ninja 把ninja卸载了就行。系统版本 ubuntu 22.04 + cudnn12.2.2。检测到的cuda版本与安装的torch_cuda版本不符。在几个文件中加上这些头文件后,再次安装,终于可以了!输入 nvcc -V 能正常输出版本就行。是我的环境变量中没有添加cuda的路径。使用vim ~/.bashrc。的教程进行安装时出现许多报错。把检查版本的代码注释掉就行。
2024-05-14 14:41:09
1681
1
原创 undefined symbol when importing torchaudio with pytorch 报错解决
运行以下代码解决包冲突。
2024-04-07 15:08:56
2004
1
原创 RuntimeError: CUDA error: device-side assert triggered的解决
记录:今天做实验遇到报这个错,但是没有显示具体报错信息,不知道如何排查,谷歌一下发现可以把设备换成CPU而不是cuda,就可以显示出具体的报错信息,后面发现真的可以,记录一下。
2024-03-16 14:07:24
592
1
原创 报错:RuntimeError: Expected nested_tensorlist[0].size() > 0 to be true, but got false. 已解决
这个错误信息提示的问题是在尝试进行梯度裁剪时,遇到了一个或多个模型参数的梯度尺寸为零(即没有梯度)。解决这个问题的一种方法是在调用梯度裁剪之前,检查参数的梯度是否存在和有效。可以通过遍历模型参数并检查它们的。:模型中可能存在一些未参与前向或反向传播的参数。例如,某些层可能因为模型的某种条件分支而没有被执行。:某些参数在反向传播过程中可能得到了零梯度。这可能是因为模型的某部分没有得到有效的梯度更新。或者梯度的尺寸为零,可以选择跳过这些参数的梯度裁剪。
2024-03-09 19:28:59
884
原创 文件删除时目录已损坏且无法读取且删不掉
文件删除时目录已损坏且无法读取且删不掉,一般是磁盘有问题,有一个非常简单的办法来帮助删除这个文件:首先点“开始”菜单或按“WIN键+R”启动“运行”,输入“CHKDSK D:/F”;其中“D:”为出问题的文件所在磁盘的盘符,可以视情况而改,接下来点确定,然后就等着就好了,过上一会,命令窗口消失,好了,可以正常删除了。链接:https://www.jianshu.com/p/7e9901c17cce。商业转载请联系作者获得授权,非商业转载请注明出处。按下 Win+R 输入。作者:chenmuke。
2023-12-16 21:51:00
1895
1
原创 解决使用多GPU进行训练时报错:unrecognized arguments: --local_rank 的问题
网上运行方法都是在命令行中使用。
2023-10-25 10:54:21
1452
1
原创 ERROR:Unexpected bus error encountered in worker. This might be caused by insufficient shared memory
先关闭docker容器与docker服务,进入到宿主机/var/lib/docker/containers目录,找到对应容器id的目录,修改hostconfig.json,将ipc mode由原来的private修改为host,然后保存,重启docker服务与docker容器,再运行程序,发现可以正常训练,解决。注:容器的hostconfig.json里面存放的是已有容器的配置,而在以后新建容器时可以直接实现设置好相关参数,从源头上避免再次出现此类问题。
2023-09-05 20:53:55
428
原创 使用dpkg卸载cudnn 时出现, dpkg warning:ignoring request to remove cudnn-local-repo-ubuntu2204-8.9.2.26
即可成功移除配置文件。
2023-07-07 22:33:42
1146
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人