yu3jun-优快云博客

原创 torch hub从本地加载模型

因为这样没有初始化模型，直接加载参数会报错。

2024-09-12 14:17:53 1759

原创 Pointnet2安装报错

2、/usr/local/cuda/bin/nvcc: No such file or directory 错误。

2024-09-11 13:49:27 673

原创 Conda 更换镜像源

去 ~/.condarc中添加以上内容，注意一开始是空的。后续照常使用pytorch官网的下载命令即可。

2024-09-10 13:24:30 663

原创 Llama Factory 报错：No package metadata was found for The ‘unsloth‘ distribution was not found

Llama Factory 报错：importlib.metadata.PackageNotFoundError: No package metadata was found for The 'unsloth' distribution was not found and is required by this application.成功安装后即可正常运行。

2024-09-03 16:10:14 1266

原创解决使用meteor过程中的IOError: [Errno 32] Broken pipe报错

网上说的调 num_worker为0没用，

2024-08-15 12:21:57 439 1

原创运行 PointNetPP报错: CUDA kernel failed : no kernel image is available for execution on the device

把这个路径下所有.cu后缀文件中的CUDA_CHECK_ERRORS()注释掉，网上一直说是pytorch版本与cuda版本的问题，但是试了很多版本都解决不了。并且重新运行 pointnetpp 的 setup.py 安装编译。进入pointnetpp -> _ext_src -> src。

2024-07-15 14:13:29 652 1

转载 nvcc fatal : Unsupported gpu architecture ‘compute_37‘解决

先检查ninja是否安装好了，安装好了还报以上错误再试下面的方法。打开pointnet2_ops_lib中的setup.py文件。将这个3.7+PTX删了，再安装就好了。在安装Pointnet2时遇到报错，

2024-06-26 17:11:26 612

原创 NVIDIA Omniverse launcher下载

从上面这个链接进去，别下载Kit SDK，那个不对。

2024-06-21 10:58:47 3597

原创 ok-robot 环境安装

和GroundingDINO/，以及lang-segment-anything都手动安装，可参考以下issue。建议使用mamba安装env-cu118.yml报错之后，

2024-06-19 16:02:23 363

原创解决：libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found

将环境中的libstdc++.so.6与anaconda3虚拟环境中的链接起来就行了。既然已经存在了上述目标文件，所以只需要重新创建。发现GLIBCXX_3.4.30是存在的。能够识别到这个目标文件就可以了。

2024-06-17 14:18:58 3718

原创 self and mat2 must have the same dtype, but got Float and Half 报错解决

查阅很久都是让修改模型输入，但一直不行。

2024-06-06 17:00:38 1100 1

原创 windows端vscode清除本地ssh缓存

进入c盘-用户-.ssh，先把known_hosts和known_hosts_old都给删除了，然后进去Appdata-Roaming-Code，把缓存数据删了。这种方法适用于连接服务器端不同docker容器出现错误时，比如新老容器使用同一个端口，但是vscode连接不上新的容器。

2024-05-27 16:11:28 5279

原创 libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found 解决

安装的pytorch版本：pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=11.3。起初一直在纠结是不是open3d的锅，后经高人指点发现前面的报错提到了GLIBCXX_3.4.30' not found，后谷歌采用。在运行embodiedscan的demo代码时要用到open3d，但是一直报错。版本过高，安装低1.8及以下版本scipy即可解决冲突，顺利运行。系统版本：ubuntu 22.04。

2024-05-15 15:17:14 1360 1

原创记录MinkowskiEngine 安装过程中的踩坑经历

先使用 pip uninstall ninja 把ninja卸载了就行。系统版本 ubuntu 22.04 + cudnn12.2.2。检测到的cuda版本与安装的torch_cuda版本不符。在几个文件中加上这些头文件后，再次安装，终于可以了！输入 nvcc -V 能正常输出版本就行。是我的环境变量中没有添加cuda的路径。使用vim ~/.bashrc。的教程进行安装时出现许多报错。把检查版本的代码注释掉就行。

2024-05-14 14:41:09 2757 1

原创 undefined symbol when importing torchaudio with pytorch 报错解决

运行以下代码解决包冲突。

2024-04-07 15:08:56 2879 2

原创 RuntimeError: CUDA error: device-side assert triggered的解决

记录：今天做实验遇到报这个错，但是没有显示具体报错信息，不知道如何排查，谷歌一下发现可以把设备换成CPU而不是cuda，就可以显示出具体的报错信息，后面发现真的可以，记录一下。

2024-03-16 14:07:24 669 1

原创报错：RuntimeError: Expected nested_tensorlist[0].size() ＞ 0 to be true, but got false. 已解决

这个错误信息提示的问题是在尝试进行梯度裁剪时，遇到了一个或多个模型参数的梯度尺寸为零（即没有梯度）。解决这个问题的一种方法是在调用梯度裁剪之前，检查参数的梯度是否存在和有效。可以通过遍历模型参数并检查它们的。：模型中可能存在一些未参与前向或反向传播的参数。例如，某些层可能因为模型的某种条件分支而没有被执行。：某些参数在反向传播过程中可能得到了零梯度。这可能是因为模型的某部分没有得到有效的梯度更新。或者梯度的尺寸为零，可以选择跳过这些参数的梯度裁剪。

2024-03-09 19:28:59 1083

原创文件删除时目录已损坏且无法读取且删不掉

文件删除时目录已损坏且无法读取且删不掉，一般是磁盘有问题，有一个非常简单的办法来帮助删除这个文件：首先点“开始”菜单或按“WIN键+R”启动“运行”，输入“CHKDSK D:/F”；其中“D：”为出问题的文件所在磁盘的盘符，可以视情况而改，接下来点确定，然后就等着就好了，过上一会，命令窗口消失，好了，可以正常删除了。链接：https://www.jianshu.com/p/7e9901c17cce。商业转载请联系作者获得授权，非商业转载请注明出处。按下 Win+R 输入。作者：chenmuke。

2023-12-16 21:51:00 3076 1

原创解决使用多GPU进行训练时报错：unrecognized arguments: --local_rank 的问题

网上运行方法都是在命令行中使用。

2023-10-25 10:54:21 1756 1

原创 ERROR:Unexpected bus error encountered in worker. This might be caused by insufficient shared memory

先关闭docker容器与docker服务，进入到宿主机/var/lib/docker/containers目录，找到对应容器id的目录，修改hostconfig.json，将ipc mode由原来的private修改为host，然后保存，重启docker服务与docker容器，再运行程序，发现可以正常训练，解决。注：容器的hostconfig.json里面存放的是已有容器的配置，而在以后新建容器时可以直接实现设置好相关参数，从源头上避免再次出现此类问题。

2023-09-05 20:53:55 622

原创使用dpkg卸载cudnn 时出现, dpkg warning:ignoring request to remove cudnn-local-repo-ubuntu2204-8.9.2.26

即可成功移除配置文件。

2023-07-07 22:33:42 1292 3

AmbitiousTyj的博客