Hugging Face 模型/数据集国内加速下载指南

🚀 Hugging Face 模型/数据集国内加速下载指南( HF-Mirror 教程)

📅 更新时间:2025年6月
🧠 作者:@lijin6
🎯 关键词:huggingface、模型下载加速、HF-Mirror、hfd、huggingface-cli、国内AI开发者


🧩 为什么需要加速 Hugging Face 下载?

Hugging Face 是当前最受欢迎的 AI 模型平台,包含了诸如 LLaMA、GPT、SAM、Diffusers 等前沿模型。但由于其服务器在海外,国内下载 Huggingface 模型经常出现断连、超时、龟速等问题,严重影响开发效率。

为了解决这个痛点,开源社区开发了多种加速方案,尤其推荐 HF-Mirror 镜像站,本文将全面介绍其使用方式。


🌐 HF-Mirror 简介

官网地址https://hf-mirror.com
这是一个由国内开发者维护的 公益 Hugging Face 镜像服务站,支持以下特性:

  • ✅ 提供稳定、快速的模型与数据集下载;
  • ✅ 支持 huggingface-cli 命令行;
  • ✅ 支持环境变量无侵入式加速;
  • ✅ 提供基于 aria2 的高速下载工具 hfd
  • ✅ 支持 Gated Repo 的 token 下载。

✅ 方法一:直接网页搜索下载

适用于模型数量少、不常更新时:

  1. 打开 https://hf-mirror.com
  2. 搜索你需要的模型,比如 gpt2
  3. 点击 Files and versions,直接选择你需要的 .bin.json 文件进行下载

✅ 方法二:huggingface-cli 命令行加速

1️⃣ 安装依赖:

pip install -U huggingface_hub

2️⃣ 设置环境变量:

  • Linux/macOS
export HF_ENDPOINT=https://hf-mirror.com
  • Windows PowerShell
$env:HF_ENDPOINT = "https://hf-mirror.com"

建议将其添加到你的 .bashrc 或 PowerShell 配置文件中。


3️⃣ 下载模型/数据集:

  • 下载模型:
huggingface-cli download --resume-download gpt2 --local-dir gpt2
  • 下载数据集:
huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext

💡 使用 --local-dir-use-symlinks False 可禁用软链接,便于打包或直接部署。


✅ 方法三:使用 hfd 高速下载器(推荐)

hfd 是 HF-Mirror 提供的轻量级模型下载脚本,底层基于 aria2 支持断点续传和多线程,非常适合下载大模型。

1️⃣ 下载 hfd 工具:

wget https://hf-mirror.com/hfd/hfd.sh
chmod +x hfd.sh

2️⃣ 设置镜像地址:

export HF_ENDPOINT=https://hf-mirror.com

3️⃣ 下载命令示例:

  • 下载模型:
./hfd.sh gpt2
  • 下载数据集:
./hfd.sh wikitext --dataset

🔐 下载需要授权的 Gated Repo:

./hfd.sh meta-llama/Llama-2-7b --hf_username YOUR_NAME --hf_token hf_***

✅ 方法四:非侵入式加速(代码中设置环境变量)

适用于已有代码框架、无法改写调用方式的情况:

HF_ENDPOINT=https://hf-mirror.com python your_script.py

如在 Transformers 中使用 from_pretrained() 时也会自动读取该变量。


❓ 常见问题解答

Q: 为什么有些模型提示没有权限?

A: Gated 模型(如 LLaMA、Stable Diffusion XL)需要在官网申请授权并登录,然后使用 access token 下载。

Q: 如何获取 token?

  1. 登录 huggingface.co
  2. 前往 https://huggingface.co/settings/tokens
  3. 创建新的 Access Token

❤️ 最后

HF-Mirror 是一个非常棒的国内公益项目,极大提升了我们使用 Hugging Face 的效率。如果你觉得有帮助,欢迎前往官网左下角扫码支持一下维护者!

📢 项目地址: https://hf-mirror.com


📌 参考链接


📬 如果这篇文章对你有帮助,欢迎点赞、收藏、评论支持我持续更新 AI 工具技巧!也欢迎留言分享你自己的加速经验 🚀

### 如何打包并下载 Hugging Face 模型 为了实现模型的打包和下载,可以遵循一系列特定的操作指南。当涉及到Hugging Face上的模型操作时,通常会利用其提供的工具和支持库来简化这一过程。 对于想要从Hugging Face平台获取已训练好的模型文件的情况,可以通过命令行界面执行克隆仓库的动作[^2]: ```bash git clone https://huggingface.co/{model-repo} ``` 这里`{model-repo}`代表的是目标模型所在的存储库名称。此命令将会复制整个项目到本地计算机上,其中包括配置文件、权重以及其他任何关联资源。 如果仅需导出模型以便于离线部署或其他用途,则可采用如下方式保存模型及其对应的分词器至指定目录下: ```python from transformers import AutoModelForCausalLM, AutoTokenizer # 加载预训练模型和分词器 model = AutoModelForCausalLM.from_pretrained('facebook/opt-125m') tokenizer = AutoTokenizer.from_pretrained('facebook/opt-125m') # 将模型和分词器保存到本地路径 save_directory = "./local_model" model.save_pretrained(save_directory) tokenizer.save_pretrained(save_directory) ``` 上述代码片段展示了如何使用Transformers库中的API接口完成模型与分词组件的同时保存工作。通过这种方式获得的数据集可以直接用于后续的应用开发或进一步的研究分析之中[^1]。 一旦完成了这些步骤之后,就可以轻松地将所需材料转移至其他环境当中去了。值得注意的是,在处理大型神经网络结构时可能还会遇到额外的技术挑战,比如内存占用过高或者是依赖版本兼容性等问题;因此建议提前做好充分准备以应对可能出现的各种状况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值