解决huggingface 在代码因为网络无法下载模型和数据集的问题（伪）

最新推荐文章于 2025-04-11 14:32:33 发布

Leri_X

最新推荐文章于 2025-04-11 14:32:33 发布

阅读量4.2k

点赞数

分类专栏：各种解决方案文章标签：自然语言处理深度学习 pytorch 人工智能

本文链接：https://blog.youkuaiyun.com/Defiler_Lee/article/details/132825677

版权

各种解决方案专栏收录该内容

15 篇文章

订阅专栏

本文介绍了如何通过git和GitLFS下载HuggingFace库的模型（如Roberta-large），以及如何处理数据集的下载、本地存储（如SuperGlueCB）和读取。涉及到从HuggingFace平台获取数据，以及在没有直接下载链接时的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

huggingface的模型下载

其实是用git手动下载
具体的方法：

sudo apt-get update
sudo apt-get install git-lfs
git lfs install

然后git clone https://huggingface.co/roberta-large

huggingface数据集下载

首先有些数据集也可以通过git下载（那种，打开数据集页面，文件中有数据集本体的，有些数据集文件里只有下载数据集的python脚本文件什么的，这种就不行）

那么只能，挂梯子，或者换一个网络，本地下载，然后上传到服务器：

# 下载并本地存储
from datasets import load_dataset
dataset = load_dataset('super_glue', 'cb', cache_dir='./raw_datasets')
dataset.save_to_disk('superglue_cb')

# 读取本地的文件
from datasets import load_from_disk
raw_dataset = load_from_disk("saved_to_disk/superglue_cb")