- 博客(14)
- 收藏
- 关注
原创 解决计算平台容器调用错误:failed to create shim task: OCI runtime create failed
向计算平台提交计算任务时报错,开始以为是显卡驱动的问题,多次申请不同机器后仍出现相同错误。
2024-01-18 14:07:46
4666
原创 deepspeed多卡训练报错:NameError: Field “model_persistence_threshold“ has conflict with protected...
在单机多卡服务器上使用微软得deepspeed分布式训练Bloom模型遇到上述错误。
2023-07-02 22:35:11
1540
原创 Unable to load weights from pytorch checkpoint file for ‘bert-base-uncased‘ at ...
OSError: Unable to load weights from pytorch checkpoint file for ‘bert-base-uncased’ at …使用huggingface的bert时遇到预训练模型加载失败的问题,具体终端报错为:OSError: Unable to load weights from pytorch checkpoint file for 'bert-base-uncased' at ... If you tried to load a PyTorch
2021-11-28 10:33:40
6984
2
原创 CUDA out of memory: 一种不常见bug的解决方法
CUDA out of memory: 一种不常见bug的解决方法问题描述解决方案总结问题描述博主在跑推荐系统代码的时候出现了OOM(Out Of Memeory)错误,于是把device改为torch.device(“cpu”),然而又出现了RuntimeError: CUDA out of memory. Tried to allocate 2.00 MiB (GPU 0; 10.91 GiB total capacity; 8.47 GiB already allocated; 1.75 MiB
2021-09-09 16:35:29
1749
原创 阿里云服务器实现内网穿透(frp方式)
注意笔者的云服务器和内网服务器安装的均为Ubuntu18.04系统,以下步骤命令也基于此系统所写。下载和安装frp用户可以通过 frp 的github源选择合适的版本下载这里我们选择的是v0.34.0版本(可以根据需要自由选择),然后上传至云服务器和内网服务器,也可以在两个机器输入如下命令直接下载:wget https://github.com/fatedier/frp/releases/tag/v0.34.0/frp_0.34.0_linux_amd64.tar.gz下载完毕,可以将下载好的压
2021-06-09 20:16:52
10630
原创 Ubuntu下添加用户到指定用户组
Ubuntu下添加用户有两个命令可以选择:useradd和adduser,本文使用useradd。首先,使用groups命令查看用户组列表,系统会给出查询结果:root, ...,在其中选择用户组test_group作为目标用户组;接着开始创建用户test_user,具体命令为:useradd -d /data/test_user -m test_user -g test_group其中,-d后参数表示新用户的主目录,-m参数表示用户的登入目录,-g参数为用户组名称。此时已经创建好新用户test
2021-06-07 11:16:15
4286
原创 训练Huggingface的Pytorch版BERT出现错误“RuntimeError: CUDA error: device-side assert triggered”
Pytorch运行时出现错误“RuntimeError: CUDA error: device-side assert triggered”错误原因解决方案错误原因RuntimeError: CUDA error: device-side assert triggered出现的根本原因是实际数据的label与模型定义的label不匹配,具体来说有以下几种:1.真实数据的label数量不等于模型定义的label数量;2.真实数据的label值并非[0, 1, 2, …],而是自定义的label值.解
2021-01-06 14:50:23
802
原创 pandas统计csv中相同数据出现次数
在处理csv数据的过程中可能会遇到统计重复数据的情况,笔者以自己遇到的问题为例,给出一个可以解决此问题的方法。进行操作的csv文件中含有1700多条数据,其中局部如下图所示:目的是计算其中每条数据出现的次数,代码如下:import pandas as pdcsv = pd.read_csv('../data/all_CE.csv')counted = csv.groupby(['c...
2020-04-30 20:53:23
8210
3
原创 MySQL命令行基础操作:创建新数据库、创建新表、向表中插入数据
在对MySQL进行操作之前,首先要登陆MySQL Server,输入服务器密码,进入MySQL Server。然后就可以在Server的命令行环境下实现各种操作。笔者使用的是MySQL 8.0版本,不同版本语法可能略有差异,还请读者查看对应版本的语法。查看当前数据库:mysql>show databases;这时就会显示当前已有的所有数据库。一般情况下,MySQL内部都会有两个或者三...
2020-04-21 10:29:29
2073
原创 neo4j导入.csv文件时常见问题之Neo.ClientError.Statement.ExternalResourceFailed解决方法
在使用图数据库neo4j中的LOAD CSV操作导入本地数据时可能会出现报错:Neo.ClientError.Statement.ExternalResourceFailed这个错误一般是格式造成的,下面就来讲其中最常见的两点。一、地址格式错误LOAD CSV WITH HEADERS FROM “file:///CE.csv” AS line语句中的 “file:///” 是不能更改的,...
2020-04-09 11:20:08
11141
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人