1、通过huggingface-cli
(1)先在运行环境内安装datasets,在使用 huggingface-cli命令之前,首先需要安装 huggingface_hub 库。
pip install datasets
pip install -U huggingface_hub
(2)没有vpn的话,需要把hf环境变量地址换成hf镜像。
export HF_ENDPOINT=https://hf-mirror.com
(3)认证、登录
首先要登录huggingface,获取一个自己的访问token,然后终端运行输入自己的token。
huggingface-cli login
2、如果默认磁盘空间不够,可以更改huggingface缓存路径
export HF_HOME = your path to cache
3、下载数据集
from datasets import load_dataset
# 加载训练数据集
dataset = load_dataset("name of your dataset", split="train")
# 将数据保存到本地
dataset.save_to_disk("path to your datasets")
下载模型
import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from huggingface_hub import snapshot_download
model_name = " "
while True:
try:
snapshot_download(
repo_id=model_name,
local_dir=model_name,
resume_download=True
)
break
except:
pass