大模型开发入门系列之模型社区和下载

原创已于 2025-10-22 17:57:31 修改 · 945 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python #语言模型

于 2025-10-22 15:13:51 首次发布

音频AI 专栏收录该内容

8 篇文章

订阅专栏

大语言模型社区（类似github）

HuggingFace
HuggingFace是一家全球领先的开源AI平台和社区，成立于2016年，总部位于美国。其核心产品是Transformers库——汇集了数十万种预训练AI模型，涵盖NLP（自然语言处理）、CV（计算机视觉）、语音等领域。wikipedia+1

平台提供模型共享和下载、数据集托管、任务微调及云端推理等服务，极大加速了AI应用开发和落地。
支持PyTorch、TensorFlow等主流框架，开发者可快速调用如BERT、GPT等大型模型，也能上传自有模型。
拥有活跃的开源社区和文档，很多顶尖研究和模型都会第一时间在HuggingFace发布和共享。

ModelScope（魔搭）
ModelScope是阿里巴巴达摩院推出的新一代开源AI模型共享平台，主要面向中文及全球开发者，是中国版的“HuggingFace”。csdn+1

平台集成了丰富的预训练模型、数据集和工具，涵盖自然语言处理、视觉、音频、语音识别等诸多领域，并支持模型开发、训练、部署和共享的全流程。
提供Web界面及API，用户可一站式查找、调用和集成AI模型资源。
特色是针对中国场景优化，低门槛、高效率，支持中文和多语种AI模型，有良好生态和使用文档。

这两个平台都是AI领域的重要模型、工具托管和技术交流中心，助力企业与开发者快速落地AI应用。

HuggingFace下载慢解决方案

HFD脚本 + Aria2 下载教程

工具介绍

hfd（Huggingface Downloader）是一个专门针对Hugging Face模型下载优化的Shell脚本，由国内开发者维护，特别适合中国用户使用。

核心特点：

自动使用国内镜像源（hf-mirror.com）
支持断点续传
集成aria2多线程下载
自动处理大文件分片下载
支持Git LFS文件下载

Aria2是一个轻量级的多协议、多源命令行下载工具，支持HTTP/HTTPS、FTP、SFTP、BitTorrent和Metalink。

优势：

多线程下载：单文件可分片并发下载
多源下载：同时从多个镜像源下载
断点续传：网络中断后可恢复下载
资源占用低：内存和CPU占用极小

使用hfd脚本 + aria2（多线程下载）

# 设置环境变量
echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc
source ~/.bashrc
# 验证设置
echo $HF_ENDPOINT

# Ubuntu/Debian
apt update && apt install -y aria2

# CentOS/RHEL  
yum install -y aria2

# macOS
brew install aria2


# 下载脚本
curl -L https://hf-mirror.com/hfd/hfd.sh -o hfd.sh
chmod +x hfd.sh

# 下载示例，到指定目录 
./hfd.sh funasr/fsmn-vad --local-dir ./funasr/

modelscope下载

请确保 lfs 已经被正确安装，没确认下载后模型大小只有几B

更新 apt 软件源：
```
bash
sudo apt update
```
安装 Git LFS：
```
bash
sudo apt install git-lfs
```
初始化 Git LFS：
```
bash
git lfs install
```

模型下载

git clone https://www.modelscope.cn/iic/speech_campplus_speaker-diarization_common.git

如果您希望跳过 lfs 大文件下载，可以使用如下命令

GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/iic/speech_campplus_speaker-diarization_common.git

高级参数详解

./hfd.sh -h

用法：
hfd <REPO_ID> [–include include_pattern1 include_pattern2 … ] [–exclude exclude_pattern1 exclude_pattern2 … ] [–hf_username username] [–hf_token token]
[–tool aria2c|wget] [-x 线程数] [-j 任务数] [–dataset] [–local-dir 路径] [–revision 版本号]说明：
使用提供的存储库 ID 从 Hugging Face 下载模型或数据集。

参数：
REPO_ID：Hugging Face 仓库 ID（必填）
格式：‘组织名称/仓库名称’ 或旧格式（例如，gpt2）
选项：
include/exclude_pattern：与文件路径匹配的模式，支持通配符。
例如，‘–exclude *.safetensor .md’，'–include vae/’。
–include：（可选）用于下载的文件包含模式（支持多个模式）。
–exclude：（可选）用于下载的文件排除模式（支持多个模式）。
–hf_username：（可选）Hugging Face 用户名用于身份验证（非电子邮件）。
–hf_token：（可选）Hugging Face 令牌用于身份验证。
–tool：（可选）用于下载的工具：aria2c（默认）或 wget。
-x：（可选）aria2c 的下载线程数（默认：4）。
-j：（可选）aria2c 的并发下载数（默认：5）。
–dataset：（可选）标志，表示下载数据集。
–local-dir：（可选）用于存储下载数据的目录路径。
默认情况下，如果 REPO_ID 由 ‘组织名称/仓库名称’ 组成，则为当前目录下的一个名为 ‘仓库名称’ 的子目录。–revision （可选）要下载的模型/数据集修订版本（默认值：main）。

示例：
hfd gpt2
hfd bigscience/bloom-560m --排除 *.safetensors
hfd meta-llama/Llama-2-7b --hf_username myuser --hf_token mytoken -x 4
hfd lavita/medical-qa-shared-task-v1-toy --数据集
hfd bartowski/Phi-3.5-mini-instruct-exl2 --修订版 5_0

./hfd.sh funasr/ct-punc --local-dir ./funasr/ct-punc -x 8  -j 8 
./hfd.sh funasr/paraformer-zh --local-dir ./funasr/paraformer-zh -x 8  -j 8 
一共下载
ct-punc  fsmn-vad  paraformer-zh  paraformer-zh-streaming

学习社区
https://github.com/0voice