大语言模型社区(类似github)
HuggingFace
HuggingFace是一家全球领先的开源AI平台和社区,成立于2016年,总部位于美国。其核心产品是Transformers库——汇集了数十万种预训练AI模型,涵盖NLP(自然语言处理)、CV(计算机视觉)、语音等领域。wikipedia+1
- 平台提供模型共享和下载、数据集托管、任务微调及云端推理等服务,极大加速了AI应用开发和落地。
- 支持PyTorch、TensorFlow等主流框架,开发者可快速调用如BERT、GPT等大型模型,也能上传自有模型。
- 拥有活跃的开源社区和文档,很多顶尖研究和模型都会第一时间在HuggingFace发布和共享。
ModelScope(魔搭)
ModelScope是阿里巴巴达摩院推出的新一代开源AI模型共享平台,主要面向中文及全球开发者,是中国版的“HuggingFace”。csdn+1
- 平台集成了丰富的预训练模型、数据集和工具,涵盖自然语言处理、视觉、音频、语音识别等诸多领域,并支持模型开发、训练、部署和共享的全流程。
- 提供Web界面及API,用户可一站式查找、调用和集成AI模型资源。
- 特色是针对中国场景优化,低门槛、高效率,支持中文和多语种AI模型,有良好生态和使用文档。
这两个平台都是AI领域的重要模型、工具托管和技术交流中心,助力企业与开发者快速落地AI应用。
HuggingFace下载慢解决方案
HFD脚本 + Aria2 下载教程
工具介绍
hfd(Huggingface Downloader)是一个专门针对Hugging Face模型下载优化的Shell脚本,由国内开发者维护,特别适合中国用户使用。
核心特点:
- 自动使用国内镜像源(hf-mirror.com)
- 支持断点续传
- 集成aria2多线程下载
- 自动处理大文件分片下载
- 支持Git LFS文件下载
Aria2是一个轻量级的多协议、多源命令行下载工具,支持HTTP/HTTPS、FTP、SFTP、BitTorrent和Metalink。
优势:
- 多线程下载:单文件可分片并发下载
- 多源下载:同时从多个镜像源下载
- 断点续传:网络中断后可恢复下载
- 资源占用低:内存和CPU占用极小
使用hfd脚本 + aria2(多线程下载)
# 设置环境变量
echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc
source ~/.bashrc
# 验证设置
echo $HF_ENDPOINT
# Ubuntu/Debian
apt update && apt install -y aria2
# CentOS/RHEL
yum install -y aria2
# macOS
brew install aria2
# 下载脚本
curl -L https://hf-mirror.com/hfd/hfd.sh -o hfd.sh
chmod +x hfd.sh
# 下载示例,到指定目录
./hfd.sh funasr/fsmn-vad --local-dir ./funasr/
modelscope下载
请确保 lfs 已经被正确安装,没确认下载后模型大小只有几B
-
更新 apt 软件源:
bash sudo apt update -
安装 Git LFS:
bash sudo apt install git-lfs -
初始化 Git LFS:
bash git lfs install
模型下载
git clone https://www.modelscope.cn/iic/speech_campplus_speaker-diarization_common.git
如果您希望跳过 lfs 大文件下载,可以使用如下命令
GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/iic/speech_campplus_speaker-diarization_common.git
高级参数详解
./hfd.sh -h
用法:
hfd <REPO_ID> [–include include_pattern1 include_pattern2 … ] [–exclude exclude_pattern1 exclude_pattern2 … ] [–hf_username username] [–hf_token token]
[–tool aria2c|wget] [-x 线程数] [-j 任务数] [–dataset] [–local-dir 路径] [–revision 版本号]说明:
使用提供的存储库 ID 从 Hugging Face 下载模型或数据集。
参数:
REPO_ID:Hugging Face 仓库 ID(必填)
格式:‘组织名称/仓库名称’ 或旧格式(例如,gpt2)
选项:
include/exclude_pattern:与文件路径匹配的模式,支持通配符。
例如,‘–exclude *.safetensor .md’,'–include vae/’。
–include:(可选)用于下载的文件包含模式(支持多个模式)。
–exclude:(可选)用于下载的文件排除模式(支持多个模式)。
–hf_username:(可选)Hugging Face 用户名用于身份验证(非电子邮件)。
–hf_token:(可选)Hugging Face 令牌用于身份验证。
–tool:(可选)用于下载的工具:aria2c(默认)或 wget。
-x:(可选)aria2c 的下载线程数(默认:4)。
-j:(可选)aria2c 的并发下载数(默认:5)。
–dataset:(可选)标志,表示下载数据集。
–local-dir:(可选)用于存储下载数据的目录路径。
默认情况下,如果 REPO_ID 由 ‘组织名称/仓库名称’ 组成,则为当前目录下的一个名为 ‘仓库名称’ 的子目录。–revision (可选)要下载的模型/数据集修订版本(默认值:main)。
示例:
hfd gpt2
hfd bigscience/bloom-560m --排除 *.safetensors
hfd meta-llama/Llama-2-7b --hf_username myuser --hf_token mytoken -x 4
hfd lavita/medical-qa-shared-task-v1-toy --数据集
hfd bartowski/Phi-3.5-mini-instruct-exl2 --修订版 5_0
./hfd.sh funasr/ct-punc --local-dir ./funasr/ct-punc -x 8 -j 8
./hfd.sh funasr/paraformer-zh --local-dir ./funasr/paraformer-zh -x 8 -j 8
一共下载
ct-punc fsmn-vad paraformer-zh paraformer-zh-streaming
学习社区
https://github.com/0voice
1241

被折叠的 条评论
为什么被折叠?



