自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_62480812的博客

原创 docker中配置conda镜像源失效问题，报错：UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel \ ＜https://conda.

运行命令后使用env命令进行检查，发现已经成功删除了环境变量CONDA_CHANNELS。查看conda config --show，发现channels字段中存在一个"\"错误网址，而且，直接编辑.condarc文件无效，即使运行了。dockerfile环境变量"CONDA_CHANNELS"被写入了错误的字符，进而被conda设置为默认的镜像源，导致了一系列问题。联系自己是在docker容器中进行配置的，我怀疑是dockerfile配置文件的环境变量在作祟。命令也无法去除，好像是系统强制写入配置的。

2025-03-26 17:25:20 619

原创 Pycharm 远程debug启动后闪退：Process finished with exit code -1

解决办法，关闭所有杀毒软件与系统防火墙，报错不再出现

2025-03-07 10:12:31 429

原创 Pycharm debug中途意外退出，报错Process finished with exit code -1073741819 (0xC0000005)

我首先尝试了取消勾选 Pycharm 的 PyQt 兼容选项，然而，这一操作并未能解决该问题。毕竟，我所运行的代码本身根本就没有涉及到 PyQt，所以这一尝试的结果也在意料之中。经过一番探索，原来，问题出在 Python 解释器的版本上。我将 Python 版本从 3.12 降到了 3.9，之后就能够正常调试了。从表面现象来看，似乎是 Python 版本过新导致了问题的出现，但其深层次的原因目前还尚未明确。

2025-02-11 14:11:41 724 1

原创在docker容器中使用Megatron-LM框架进行分布式训练踩坑与经验分享

由于分布式训练需要大量通信，所以docker网络模式建议设置为主机网络模式以保证通信效率：需要使用节点内所有的GPU，请设置启动参数--gpus all。

2024-11-07 15:44:30 1216 1

原创教程类：在超算互联网（SCNet）平台轻松玩转多模态大模型LLaVA的推理、预训练与微调。

教程类：在超算互联网（SCNet）平台轻松玩转多模态大模型LLaVA的推理、预训练与微调。

2024-08-15 22:26:48 4466

原创 Docker部署hadoop，遇到datanode无法正常启动问题

通过查阅docker-compose.yaml文件，发现其中一个volume路径是./data/hadoopnode/data:/data:z。找到文件路径，例如：E:\MapReduceANDSpark\hadoop-sandbox\data\hadoopnode\data。Docker部署hadoop，遇到datanode无法正常启动问题。把此文件夹下的这两个文件删除，然后重启docker即可。

2024-06-05 02:38:52 425

原创问题解决：pycharm远程debug无法显示python库文件

点击pycharm右下角的python interpreter选项，重新选择远程python解析器，这样就会自动进行库文件的同步了。网上有说法是路径映射没有设置好，但是这些方案并不起作用。同步以后，就可以正常地进入库文件进行debug了。摸索之后发现，原来是我在远程服务器上环境中。，导致文件加载不了。

2024-04-26 17:34:08 644 2

原创 OpenMPI报错ORTE_ERROR_LOG: Data unpack had inadequate space in file

【代码】OpenMPI报错ORTE_ERROR_LOG: Data unpack had inadequate space in file。

2024-04-19 21:00:23 824

原创 Java rmi踩坑总结

最近在做分布式计算作业的过程中，需要用到Java rmi实现RPC远程调用，踩了不少坑，来总结一下帮助大家避坑。打开一个终端，一定要cd到output目录下，再启动rmiregistry,就OK了再次运行服务端，发现没有报错，一切正常。。

2024-04-12 16:05:05 1510

原创关于Pytorch autograd机制反向传播计算梯度的几个tips

（不求平均，平均数因子早在之前的Divbackward已经算过了）：举例，广播的bias（原尺寸1 X 10，广播后16 X 10 ,batch_size=16）反向传播计算出的梯度尺寸也是16 X 10，bias为AccumulateGrad类型，则把梯度的第一个维度，即16进行累加，最终得到真正的梯度即尺寸为1 X 10的梯度（与bias尺寸相同）本文的所有tips都是在阅读pytorch源码，包括torch/csrc/autograd目录下的autograd部分的C++源码总结出来的。

2024-04-07 21:40:21 1155 1

原创以大语言模型ChatGLM2-6B为后台，打造个人语音交互机器人Demo

看到了这里，你一定是个热爱学习编程的极客，令人钦佩。让我们携手前行，探索更多的学习和创新，为共同的热爱努力，因为在知识的海洋里，我们永不止步，共同谱写着学习的精彩篇章。🚀💡。

2023-09-12 20:36:55 6536 2

原创超算平台国产DCU服务器运行Pytorch报错libglog.so.0、torch.cuda.is_available() Aborted 的解决办法

报错的原因是系统没有找到正确的pytorch_lib路径，许多小伙伴的第一反映是重新下载一个lib，其实服务器内部已经为我们准备好了pytorch_lib，很齐全，我们只需配置好环境变量即可。出现以上错误的原因是没有切换到正确的rocm编译器版本，可以运行下面的命令进行切换。在在本地创建一个pytorch_env.sh的文件，添加环境变量！第一次在超算平台使用pytorch时遇到了两个报错。

2023-08-05 16:35:44 963 1

原创初次调试MPI程序，调用Send&Recv函数报错的解决方案

原因是客户端的防火墙没有关，需要把所有节点的防火墙都进行关闭操作，方可保证各节点进行通信。切记，以上命令一定要在所有节点上都操作一遍！！！再次运行程序，就能够正常跑通了！

2023-07-22 15:40:05 752

原创在VS环境运行CUDA kernel.cu示例程序出现MSB3721错误、C1083、E0029报错的解决方案

依次展开HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\Profilelist，在Profilelist下的文件夹对应系统中用户，而文件夹中ProfileImagePath值是指向每个用户文件夹的地址，一个个点击查看，找到用户名对应的ProfileImagePath值。出现此错误的原因是IDE的语法检查器无法识别CUDA的特殊语法，但并不影响编译器对源码的编译，因此可以忽略。，出现了乱码，C:\Users\？

2023-06-28 15:14:09 2473 4

空空如也

C语言一道统计输入的字符数题目，为什么我输出的结果是空白？

2021-10-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除