- 博客(13)
- 收藏
- 关注
原创 深度学习模型训练问题记录之梯度爆炸
在改变dropout值和增加归一化层之后,问题没有得到有效解决,但是加入模型参数初始化之后,问题得到了有效解决。最有用的可能是权重参数初始化,也足以看到初始化的重要性。模型训练的过程中损失值很大,且反复震荡不下降。
2024-09-29 11:12:56
250
1
原创 传输文件之rsync
rsync 是一种常用的命令行实用程序,用于文件同步和数据传输,可以在不同位置之间进行文件复制。它通常在类Unix操作系统上可用,包括Linux和macOS。rsync 的设计目标是高效地同步文件和目录,通过仅复制或更新文件的更改部分来最小化传输的数据量。
2024-01-02 18:29:05
1113
1
原创 使用GCN并且传入edge weights参数时,反向传播报错PowBackward0
在使用torch_geometric库的GCN块时,传入edge weights参数。按照官方文档描述,该参数会将本为0-1二值矩阵的邻接矩阵A中的 1‘s 替换成edge weights中相应的值。但是在使用edge weights参数的时候,反向传播会报错后经过设置发现是GCN层出了错经过查看源码,确认是edge _weights的问题默认情况下edge_wight是一个全1的矩阵,但是在传入edge_weights之后,计算的deg矩阵可能会有负值,
2023-12-11 11:50:01
648
1
原创 Github遇到的问题及解决办法
git默认使用http/2.0协议,而github还是http/1.1。查看git config的所有global配置。此处的端口号需要与魔法的端口号一致。针对github 设置代理。国内网络问题,需要魔法。取消github代理。
2023-12-08 18:23:08
183
原创 解决jupyter notebook中plt.savefig()保存图片为空白的问题
在jupyter notebook使用matplotlib.pyploy画图时候,调用plt.savefig()结果是空白。
2023-11-03 11:09:21
1217
原创 [问题解决]NCCL WARN Call to posix_fallocate failed : No space left on device
在docker镜像里配置了深度学习环境,然后尝试运行DistributedDataParallel的一个example报错。> 要注意的一个问题就是必选先关闭docker服务再修改配置文件,不然修改不会起作用。可以查到docker镜像里的shm默认只有64mb,然后查找修改的方法。根据博客里的方法3,修改docker配置文件。然后查到是因为/dev/shm的空间不足,输入指令。就可以在终端输出日志,从而发现问题究竟在哪里。首先查资料,查到直接在终端输出以下命令。
2023-10-31 19:34:53
502
1
原创 [BUG解决]numpy.ndarray存储字符串混乱的问题
问题:“ValueError: Supported target types are: (‘binary‘, ‘multiclass‘). Got ‘unknown‘ instead.”
2023-10-31 10:55:05
146
1
原创 torch.device和torch.cuda.set_device()
2. 如果使用torch.cuda.set_device('cuda:0')的方式,则改用。3. 即前者需要采用to()方法,而后者可以使用cuda()方法,而无需传递参数。1. 使用torch.device的方式设置显卡之后,需用使用。的方式将模型和数据放到GPU上。的方式将模型和数据加载到显卡中。
2023-10-29 19:57:20
6162
1
原创 torch_scatter踩坑指南
在pytorch官网用pip安装,不要用conda 在https://data.pyg.org/whl/torch-1.12.1+cu116.html,根据自己的版本替换torch版本和cuda版本,将torch_scatter, torch_cluster, torch_sparse下载到本地用pip进行安装 顺利解决
2023-04-26 17:20:52
115
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人