[huggingface]—离线加载数据集

本文介绍了在服务器无网络时如何手动下载HuggingFace数据集(如Stereoset)的步骤,包括从GitHub仓库下载特定文件,修改数据加载路径,以及在有网络时使用`save_to_disk`和`load_from_disk`方法进行离线存储。还提及了处理Parquet文件的示例。

前言

服务器没网,需要手动下载,离线加载数据。

情况1

以加载下面这个数据集为例:

dataset = load_dataset('stereoset', 'intrasentence')
  1. 去hugginface找到这个仓库,看files and versions里面的py文件,需要下载什么文件,比如:
https://huggingface.co/datasets/stereoset/blob/main/stereoset.py
_DOWNLOAD_URL = "https://github.com/moinnadeem/Stereoset/raw/master/data/dev.json"
  1. 把这个dev.json,以及files and versions里面的其他文件(这里是dataset_infos.json,stereoset.py)都下载下来,放入目录X。
  2. 把加载数据的那行代码改成:
dataset = load_dataset(“X/stereoset.py”, 'intrasentence')

(如果是dataset = load_dataset(“X”, 'intrasentence'),会走site-packages/datasets/builder.pydef _prepare_split_single,可能会报如下错)

ValueError: Not able to read records in the JSON file at /data/syxu/representation-engineering/data/fairness/dev.json. You should probably indicate the 
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值