[huggingface]—离线加载数据集

本文介绍了在服务器无网络时如何手动下载HuggingFace数据集(如Stereoset)的步骤,包括从GitHub仓库下载特定文件,修改数据加载路径,以及在有网络时使用`save_to_disk`和`load_from_disk`方法进行离线存储。还提及了处理Parquet文件的示例。

前言

服务器没网,需要手动下载,离线加载数据。

情况1

以加载下面这个数据集为例:

dataset = load_dataset('stereoset', 'intrasentence')
  1. 去hugginface找到这个仓库,看files and versions里面的py文件,需要下载什么文件,比如:
https://huggingface.co/datasets/stereoset/blob/main/stereoset.py
_DOWNLOAD_URL = "https://github.com/moinnadeem/Stereoset/raw/master/data/dev.json"
  1. 把这个dev.json,以及files and versions里面的其他文件(这里是dataset_infos.json,stereoset.py)都下载下来,放入目录X。
  2. 把加载数据的那行代码改成:
dataset = load_dataset(“X/stereoset.py”, 'intrasentence')

(如果是dataset = load_dataset(“X”, 'intrasentence'),会走site-packages/datasets/builder.pydef _prepare_split_single,可能会报如下错)

ValueError: Not able to read records in the JSON file at /data/syxu/representation-engineering/data/fairness/dev.json. You should probably indicate the 
### 加载本地数据集时程序卡住的解决方案 当遇到 `load_dataset` 函数加载本地数据集导致程序卡住的情况,可以考虑以下几个方面来排查和解决问题。 #### 1. 检查文件路径与结构 确保指定的数据集目录存在且路径正确。Hugging Face 的 `datasets` 库期望特定的文件夹结构以及元数据文件的存在。如果这些不符合预期,则可能导致读取过程中的延迟甚至挂起[^1]。 对于 Dolly v2-12B 所使用的数据集,其官方仓库提供了标准格式作为参考。建议对比自己的本地存储方式是否一致: ```bash . ├── dataset_name/ │ ├── README.md │ └── data/ │ ├── train.jsonl.gz │ └── validation.jsonl.gz ``` #### 2. 验证依赖项安装情况 有时缺少必要的 Python 包也会引起此类问题。确认已经按照文档说明完成了所有必需库的安装操作,特别是那些用于处理压缩文件或特殊格式的支持包。 可以通过命令行工具 pip 来更新环境配置: ```shell pip install --upgrade huggingface_hub datasets ``` #### 3. 调整参数设置 尝试调整调用 `load_dataset()` 方法时传递给它的参数选项。比如增加缓存机制、改变分片大小或是启用多线程下载等功能都可能有助于改善性能表现并防止长时间无响应现象的发生。 下面是一个优化后的例子展示如何更高效地加载本地 JSON Lines 文件形式的数据集合: ```python from datasets import load_dataset dataset = load_dataset( 'json', data_files={'train': './path/to/local/train.jsonl.gz'}, cache_dir='./cache', split='train[:80%]' ) ``` 通过上述措施通常能够有效缓解乃至彻底消除因加载大型本地资源而引发的应用停滞状况。当然具体实施效果还需视实际情况而定,在此过程中保持耐心不断测试直至找到最适合当前场景的方法论才是关键所在。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值