load_dataset加载huggingface数据集失败

文章介绍了在遇到加载HuggingFace数据集时可能遇到的网络连接问题,以及如何通过修改代码从本地加载数据。同时,推荐使用GoogleColab来解决连接问题,提供了一种在Colab中运行和下载数据集的方法,包括将Colab文件下载到本地的步骤。
部署运行你感兴趣的模型镜像

1. 一般的加载方式

from datasets import load_dataset
dataset_dict = load_dataset('cmrc2018')

这种加载方式可能会显示因为连接问题导致失败,此时可以在hugging face里面找到对应的页面下载下来
在这里插入图片描述
然后改一下代码:

from datasets import load_dataset
dataset_dict = load_dataset('cmrc2018.py')

2. 使用google colab下载

加载失败的大多数情况是跟连接相关的,这个问题使用google colab就可以解决。

一个简单粗暴的解决方法是将整个代码上传到google colab中,然后在里面运行加载数据的代码,就可以直接拿到想要的数据了。然后将这个数据下载到本地放入文件夹中就可以用于训练模型了。

google colab支持直接在网页上运行,点击下图中的图标将代码库上穿之后就可以直接执行代码了。
在这里插入图片描述
举个例子:

比如hugging face上的这个项目:https://huggingface.co/moka-ai/m3e-base,其中想要获取相关的数据集并做初步处理的话就要先将代码库:https://github.com/wangyuxinwhy/uniem 下载到本地,并上传至google colab上面,创建输出文件夹之后运行:

!python scripts/process_zh_datasets.py output

即可得到用于训练模型的数据集

3. 如何将google colab上面的文件下载到本地

先将要下载的文件夹压缩成.zip格式的压缩文件

!zip -r folder_name.zip folder_name

其中,folder_name是你要下载的文件夹的名称。运行完这个命令后,压缩文件会保存在当前工作目录下。

然后在Colab左侧的文件导航栏中,找到你刚才压缩的.zip文件,右键点击它并选择“下载”。

或者使用python来下载:

from google.colab import files
files.download('example.txt')

hugging face 官方文档——datasets、optimizer

入门教程 | 使用 Colab,玩转谷歌深度学习全家桶

您可能感兴趣的与本文相关的镜像

ACE-Step

ACE-Step

音乐合成
ACE-Step

ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。 它拥有3.5B参数量,支持快速高质量生成、强可控性和易于拓展的特点。 最厉害的是,它可以生成多种语言的歌曲,包括但不限于中文、英文、日文等19种语言

评论 4
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

comli_cn

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值