- 博客(3)
- 收藏
- 关注
原创 openwebtext下载清洗教程
4. 数据清洗,删除掉少于 128 个token的文档,这一步会很久,我对以下代码进行了修改,使用12个线程同时运行,清洗后的数据从42G变成了11G。将数据输出文件名为 my-gpt2_text_document.bin 和 my-gpt2_text_document.idx,用于GPT2预训练使用。3. 将文件夹下的所有txt文档合并成一个大的json文件,记得在运行以下代码时添加--data_path和--output_file参数。有疑问或者需要上述文件的,包括需要清洗后的数据集私信我。
2024-05-02 22:54:39
1457
3
原创 docker编译go get代码时报dial tcp xxx.xxx.xxx.xxx io timeout错误
然后我就单独使用docker build -t my_test --network=host 去构建Docker,发现是可以构建成功的,且不会报超时错误。我就发现主机是可以从代理网站go get 相关库的,既然我使用了主机网络那按道理来说构建容器时,应该也是可以go get到相关库也是可以构建成功的啊,我百思不得其解。然后此时在使用docker-compose up -d去构建容器就不会报超时错误了,就构建成功了。是告诉Docker构建时使用主机网络命名空间,而在Docker Compose中使用。
2023-10-14 14:54:20
479
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅