[huggingface]—离线加载数据集

原创

已于 2024-03-24 20:06:29 修改 · 3.6k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #huggingface

于 2023-12-18 13:31:41 首次发布

本文介绍了在服务器无网络时如何手动下载HuggingFace数据集（如Stereoset）的步骤，包括从GitHub仓库下载特定文件，修改数据加载路径，以及在有网络时使用`save_to_disk`和`load_from_disk`方法进行离线存储。还提及了处理Parquet文件的示例。

前言

服务器没网，需要手动下载，离线加载数据。

情况1

以加载下面这个数据集为例：

dataset = load_dataset('stereoset', 'intrasentence')

去hugginface找到这个仓库，看files and versions里面的py文件，需要下载什么文件，比如：

https://huggingface.co/datasets/stereoset/blob/main/stereoset.py
_DOWNLOAD_URL = "https://github.com/moinnadeem/Stereoset/raw/master/data/dev.json"

把这个dev.json，以及files and versions里面的其他文件（这里是dataset_infos.json，stereoset.py）都下载下来，放入目录X。
把加载数据的那行代码改成：

dataset = load_dataset(“X/stereoset.py”, 'intrasentence')

（如果是dataset = load_dataset(“X”, 'intrasentence')，会走site-packages/datasets/builder.py的def _prepare_split_single，可能会报如下错）

ValueError: Not able to read records in the JSON file at /data/syxu/representation-engineering/data/fairness/dev.json. You should probably indicate the

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Muasci

关注关注

11
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

huggingface datasets离线加载文件的解决方案

weixin_43178406的博客

08-22

5万+

本文主要介绍了huggingface datasets离线加载文件的解决方案，希望能对使用python huggingface datasets的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

离线加载huggingface模型

月亮不知道的博客

01-15

1939

huggingface 本地加载模型阅读里面的函数，可以知道下载的文件 url 和存储位置根据输出可以知道是。

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

_SingerCoder 2025.01.26
学长配下代理就好，用 clash 打开允许局域网代理，然后服务器找自己的 .bashrc 设置 all_proxy

离线使用huggingface bert对文本编码

qq_43659401的博客

12-27

1222

1.到huggingface官网找到想使用的模型 https://huggingface.co/ 以‘bert-base-uncased’为例2.下载以下几个文件放到名为bert-base-uncased的文件夹中 3.使用以下代码获得词编码

HuggingFace 模型离线使用最佳方法！

CBIhalsen的博客

03-29

7042

os.environ['TRANSFORMERS_OFFLINE']="1"，放弃向huggingface联网访问。其余文件如：rust,我们并不需要下载，不使用tesorflow ,tf_model.h5也不需下载/如果需要增添模型文件，可在文件列表进行修改。

Huggingface离线方式加载

所有专家都曾始于新手

01-22

579

在.bashrc中将huggingface放到用户目录下的huggingface文件夹中。还有就是，每次都需要搜索一遍，然后重新下载。

Hugging Face Offline Mode 离线模式

engchina的专栏

09-05

3363

Hugging Face Offline Mode 离线模式

【经验分享】huggingface模型加载过程下载到cache文件目录具体是怎么组织的？以及都会有什么文件目录，每个文件目录是什么？huggingface离线使用数据集、metric、模型文件的操作

最新发布

08-22

949

要离线使用Hugging Face模型，需先在线下载并保存模型到本地。使用AutoTokenizer和AutoModel的save_pretrained()方法保存模型文件，然后将整个文件夹复制到离线环境。加载时通过本地路径调用from_pretrained()即可。也可用huggingface-cli download命令下载模型，或设置TRANSFORMERS_OFFLINE=1环境变量强制离线模式。注意确保文件完整、版本兼容，大模型建议使用git lfs克隆。

如何使用huggingface 预定义的模型，gpt2为例子。offline离线使用。

weixin_49699149的博客

06-25

2209

对于中国用户来说，估计主要才用它的离线方式 offline. 因为好一点的模型文件参数量比较大，导致文件基本上都大于1G，甚至10G以上，在线方式访问模型很慢并且失败的概率比较大。我试了，多数次都是链接失败的，偶尔成功一次小模型。文件比较大，可能下载时间长。能看到 model card , 是模型说明，通常说明都有如何调用的代码。它提供了大量的预训练模型model，数据集dataset，和别人开发好的应用（space)上面文档上讲的离线方式，逻辑不算清楚，根据我的摸索，可以采用简单的方法。

【Python+C#】手把手搭建基于Hugging Face模型的离线翻译系统(如果你想，也可以在线)

寒冰屋的专栏

10-08

7615

前言：目前翻译都是在线的，要在C#开发的程序上做一个可以实时翻译的功能，好像不是那么好做(其实主要是第三方的都要AppID或者授权，太不友好了)。而且大多数处于局域网内，所以访问在线的api也显得比较尴尬。于是，就有了以下这篇文章，自己搭建一套简单的离线翻译系统（当然，你也可以部署到有外网的云服务器上，那就可以变成在线的翻译系统了）。以下内容采用python提供基础翻译服务+ C#访问服务的功能，欢迎围观。

离线 Hugging Face 库问题，.from_pretrained()

海洋的博客

01-22

660

当你设置 HF_HOME 后，Hugging Face 库会自动在该目录下创建必要的子目录和文件，但是由于不同的项目开发时的代码定义问题，往往都不能很好的运行。运行🤗 Transformers 在防火墙或离线环境中，通过设置环境变量 HF_HUB_OFFLINE=1 使用本地缓存的文件。离线情况下的 Hugging Face 库目录结构不好定义的问题。地方，都将模型名改成本地绝对路径，本地绝对路径下手动下载模型文件。**终极解决方法：**将项目代码中所有用到。

【Huggingface】离线下载模型本地

dowrongagain的博客

07-22

583

对我有用的方式，比从官网下载要快很多。

elasticsearch 内网下如何以离线的方式上传任意的huggingFace上的NLP模型（国内避坑指南）

Angus

12-02

3796

es自2020年的8.x版本以来，就提供了机器学习的能力。我们可以使用es官方提供的工具eland，将hugging face上的NLP模型，上传到es集群中。利用es的机器学习模块，来运维部署管理模型。配合es的管道处理，来更加便捷的处理数据。但是在国内操作，根据官方文档或者根据官方博客操作，有无穷无尽的坑。看着官方的文档写的很清楚，实际上操作的时候，还是操作不下来。这里写一个闭坑指南。在你上车体验ES的机器学习之前，看看我这篇文章，肯定是会有收获的。因为我已经花了时间，踩了坑，并解决了它。

解决离线服务器无法加载HuggingFaceEmbeddings向量化模型的问题

m0_58700887的博客

05-10

4342

也就是说加载完向量化模型后，我初始化了Chroma向量数据库，然后对传入的doc文档数据进行向量化，它会提示找不到embed_documents这个属性。本身BertModel是没有这个属性的，但是Chroma却需要调用这个属性来实现文档向量化（通过HuggingFaceEmbeddings来加载模型就不会报错，但是离线服务器上用不了）。最后再调用这个类，就能正常对文档进行向量化和本地持久化了。