- 博客(14)
- 问答 (1)
- 收藏
- 关注
原创 docker中配置conda镜像源失效问题,报错:UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel \ <https://conda.
运行命令后使用env命令进行检查,发现已经成功删除了环境变量CONDA_CHANNELS。查看conda config --show,发现channels字段中存在一个"\"错误网址,而且,直接编辑.condarc文件无效,即使运行了。dockerfile环境变量"CONDA_CHANNELS"被写入了错误的字符,进而被conda设置为默认的镜像源,导致了一系列问题。联系自己是在docker容器中进行配置的,我怀疑是dockerfile配置文件的环境变量在作祟。命令也无法去除,好像是系统强制写入配置的。
2025-03-26 17:25:20
230
原创 Pycharm 远程debug启动后闪退:Process finished with exit code -1
解决办法,关闭所有杀毒软件与系统防火墙,报错不再出现
2025-03-07 10:12:31
287
原创 Pycharm debug中途意外退出,报错Process finished with exit code -1073741819 (0xC0000005)
我首先尝试了取消勾选 Pycharm 的 PyQt 兼容选项,然而,这一操作并未能解决该问题。毕竟,我所运行的代码本身根本就没有涉及到 PyQt,所以这一尝试的结果也在意料之中。经过一番探索,原来,问题出在 Python 解释器的版本上。我将 Python 版本从 3.12 降到了 3.9,之后就能够正常调试了。从表面现象来看,似乎是 Python 版本过新导致了问题的出现,但其深层次的原因目前还尚未明确。
2025-02-11 14:11:41
312
原创 在docker容器中使用Megatron-LM框架进行分布式训练踩坑与经验分享
由于分布式训练需要大量通信,所以docker网络模式建议设置为主机网络模式以保证通信效率:需要使用节点内所有的GPU,请设置启动参数--gpus all。
2024-11-07 15:44:30
638
1
原创 教程类:在超算互联网(SCNet)平台轻松玩转多模态大模型LLaVA的推理、预训练与微调。
教程类:在超算互联网(SCNet)平台轻松玩转多模态大模型LLaVA的推理、预训练与微调。
2024-08-15 22:26:48
2926
原创 Docker部署hadoop,遇到datanode无法正常启动问题
通过查阅docker-compose.yaml文件,发现其中一个volume路径是./data/hadoopnode/data:/data:z。找到文件路径,例如:E:\MapReduceANDSpark\hadoop-sandbox\data\hadoopnode\data。Docker部署hadoop,遇到datanode无法正常启动问题。把此文件夹下的这两个文件删除,然后重启docker即可。
2024-06-05 02:38:52
358
原创 问题解决:pycharm远程debug无法显示python库文件
点击pycharm右下角的python interpreter选项,重新选择远程python解析器,这样就会自动进行库文件的同步了。网上有说法是路径映射没有设置好,但是这些方案并不起作用。同步以后,就可以正常地进入库文件进行debug了。摸索之后发现,原来是我在远程服务器上环境中。,导致文件加载不了。
2024-04-26 17:34:08
497
2
原创 OpenMPI报错ORTE_ERROR_LOG: Data unpack had inadequate space in file
【代码】OpenMPI报错ORTE_ERROR_LOG: Data unpack had inadequate space in file。
2024-04-19 21:00:23
559
原创 Java rmi踩坑总结
最近在做分布式计算作业的过程中,需要用到Java rmi实现RPC远程调用,踩了不少坑,来总结一下帮助大家避坑。打开一个终端,一定要cd到output目录下,再启动rmiregistry,就OK了再次运行服务端,发现没有报错,一切正常。。
2024-04-12 16:05:05
1242
原创 关于Pytorch autograd机制反向传播计算梯度的几个tips
(不求平均,平均数因子早在之前的Divbackward已经算过了):举例,广播的bias(原尺寸1 X 10,广播后16 X 10 ,batch_size=16)反向传播计算出的梯度尺寸也是16 X 10,bias为AccumulateGrad类型,则把梯度的第一个维度,即16进行累加,最终得到真正的梯度即 尺寸为1 X 10的梯度(与bias尺寸相同)本文的所有tips都是在阅读pytorch源码,包括torch/csrc/autograd目录下的autograd部分的C++源码总结出来的。
2024-04-07 21:40:21
995
1
原创 以大语言模型ChatGLM2-6B为后台,打造个人语音交互机器人Demo
看到了这里,你一定是个热爱学习编程的极客,令人钦佩。让我们携手前行,探索更多的学习和创新,为共同的热爱努力,因为在知识的海洋里,我们永不止步,共同谱写着学习的精彩篇章。🚀💡。
2023-09-12 20:36:55
6089
2
原创 超算平台国产DCU服务器运行Pytorch报错libglog.so.0、torch.cuda.is_available() Aborted 的解决办法
报错的原因是系统没有找到正确的pytorch_lib路径,许多小伙伴的第一反映是重新下载一个lib,其实服务器内部已经为我们准备好了pytorch_lib,很齐全,我们只需配置好环境变量即可。出现以上错误的原因是没有切换到正确的rocm编译器版本,可以运行下面的命令进行切换。在在本地创建一个pytorch_env.sh的文件,添加环境变量!第一次在超算平台使用pytorch时遇到了两个报错。
2023-08-05 16:35:44
813
1
原创 初次调试MPI程序,调用Send&Recv函数报错的解决方案
原因是客户端的防火墙没有关,需要把所有节点的防火墙都进行关闭操作,方可保证各节点进行通信。切记,以上命令一定要在所有节点上都操作一遍!!!再次运行程序,就能够正常跑通了!
2023-07-22 15:40:05
613
原创 在VS环境运行CUDA kernel.cu示例程序出现MSB3721错误、C1083、E0029报错的解决方案
依次展开HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\Profilelist,在Profilelist下的文件夹对应系统中用户,而文件夹中ProfileImagePath值是指向每个用户文件夹的地址,一个个点击查看,找到用户名对应的ProfileImagePath值。出现此错误的原因是IDE的语法检查器无法识别CUDA的特殊语法,但并不影响编译器对源码的编译,因此可以忽略。,出现了乱码,C:\Users\?
2023-06-28 15:14:09
2155
3
空空如也
C语言一道统计输入的字符数题目,为什么我输出的结果是空白?
2021-10-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人