大模型开发入门系列之模型社区和下载

大语言模型社区(类似github)

HuggingFace
HuggingFace是一家全球领先的开源AI平台和社区,成立于2016年,总部位于美国。其核心产品是Transformers库——汇集了数十万种预训练AI模型,涵盖NLP(自然语言处理)、CV(计算机视觉)、语音等领域。wikipedia+1

  • 平台提供模型共享和下载、数据集托管、任务微调及云端推理等服务,极大加速了AI应用开发和落地。
  • 支持PyTorch、TensorFlow等主流框架,开发者可快速调用如BERT、GPT等大型模型,也能上传自有模型。
  • 拥有活跃的开源社区和文档,很多顶尖研究和模型都会第一时间在HuggingFace发布和共享。

ModelScope(魔搭)
ModelScope是阿里巴巴达摩院推出的新一代开源AI模型共享平台,主要面向中文及全球开发者,是中国版的“HuggingFace”。csdn+1

  • 平台集成了丰富的预训练模型、数据集和工具,涵盖自然语言处理、视觉、音频、语音识别等诸多领域,并支持模型开发、训练、部署和共享的全流程。
  • 提供Web界面及API,用户可一站式查找、调用和集成AI模型资源。
  • 特色是针对中国场景优化,低门槛、高效率,支持中文和多语种AI模型,有良好生态和使用文档。

这两个平台都是AI领域的重要模型、工具托管和技术交流中心,助力企业与开发者快速落地AI应用。

HuggingFace下载慢解决方案

HFD脚本 + Aria2 下载教程

工具介绍

hfd(Huggingface Downloader)是一个专门针对Hugging Face模型下载优化的Shell脚本,由国内开发者维护,特别适合中国用户使用。

核心特点

  • 自动使用国内镜像源(hf-mirror.com)
  • 支持断点续传
  • 集成aria2多线程下载
  • 自动处理大文件分片下载
  • 支持Git LFS文件下载

Aria2是一个轻量级的多协议、多源命令行下载工具,支持HTTP/HTTPS、FTP、SFTP、BitTorrent和Metalink。

优势

  • 多线程下载:单文件可分片并发下载
  • 多源下载:同时从多个镜像源下载
  • 断点续传:网络中断后可恢复下载
  • 资源占用低:内存和CPU占用极小

使用hfd脚本 + aria2(多线程下载)

# 设置环境变量
echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc
source ~/.bashrc
# 验证设置
echo $HF_ENDPOINT

# Ubuntu/Debian
apt update && apt install -y aria2

# CentOS/RHEL  
yum install -y aria2

# macOS
brew install aria2


# 下载脚本
curl -L https://hf-mirror.com/hfd/hfd.sh -o hfd.sh
chmod +x hfd.sh

# 下载示例,到指定目录 
./hfd.sh funasr/fsmn-vad --local-dir ./funasr/

modelscope下载

请确保 lfs 已经被正确安装,没确认下载后模型大小只有几B

  1. 更新 apt 软件源:

    bash
    sudo apt update
    
  2. 安装 Git LFS:

    bash
    sudo apt install git-lfs
    
  3. 初始化 Git LFS:

    bash
    git lfs install
    

模型下载

git clone https://www.modelscope.cn/iic/speech_campplus_speaker-diarization_common.git

如果您希望跳过 lfs 大文件下载,可以使用如下命令

GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/iic/speech_campplus_speaker-diarization_common.git

高级参数详解

./hfd.sh -h

用法:
hfd <REPO_ID> [–include include_pattern1 include_pattern2 … ] [–exclude exclude_pattern1 exclude_pattern2 … ] [–hf_username username] [–hf_token token]
[–tool aria2c|wget] [-x 线程数] [-j 任务数] [–dataset] [–local-dir 路径] [–revision 版本号]说明:
使用提供的存储库 ID 从 Hugging Face 下载模型或数据集。

参数:
REPO_ID:Hugging Face 仓库 ID(必填)
格式:‘组织名称/仓库名称’ 或旧格式(例如,gpt2)
选项:
include/exclude_pattern:与文件路径匹配的模式,支持通配符。
例如,‘–exclude *.safetensor .md’,'–include vae/’。
–include:(可选)用于下载的文件包含模式(支持多个模式)。
–exclude:(可选)用于下载的文件排除模式(支持多个模式)。
–hf_username:(可选)Hugging Face 用户名用于身份验证(非电子邮件)。
–hf_token:(可选)Hugging Face 令牌用于身份验证。
–tool:(可选)用于下载的工具:aria2c(默认)或 wget。
-x:(可选)aria2c 的下载线程数(默认:4)。
-j:(可选)aria2c 的并发下载数(默认:5)。
–dataset:(可选)标志,表示下载数据集。
–local-dir:(可选)用于存储下载数据的目录路径。
默认情况下,如果 REPO_ID 由 ‘组织名称/仓库名称’ 组成,则为当前目录下的一个名为 ‘仓库名称’ 的子目录。–revision (可选)要下载的模型/数据集修订版本(默认值:main)。

示例:
hfd gpt2
hfd bigscience/bloom-560m --排除 *.safetensors
hfd meta-llama/Llama-2-7b --hf_username myuser --hf_token mytoken -x 4
hfd lavita/medical-qa-shared-task-v1-toy --数据集
hfd bartowski/Phi-3.5-mini-instruct-exl2 --修订版 5_0

./hfd.sh funasr/ct-punc --local-dir ./funasr/ct-punc -x 8  -j 8 
./hfd.sh funasr/paraformer-zh --local-dir ./funasr/paraformer-zh -x 8  -j 8 
一共下载
ct-punc  fsmn-vad  paraformer-zh  paraformer-zh-streaming

学习社区
https://github.com/0voice

### 大模型开发入门指南与教程 大模型技术为应用开发带来了革命性的变化,对于小白开发者来说,从理论到实践的全面指导至关重要。本教程涵盖了大模型的基本概念、API调用、知识库搭建以及构建RAG应用等内容,帮助开发者快速掌握大模型应用开发的核心技能[^1]。 对于零基础的学习者,可以从了解大模型的基础知识开始,包括阅读相关书籍、学术论文或参加在线课程。在学习过程中,动手实践尤为重要,可以尝试使用开源的大模型框架(如TensorFlow、PyTorch等)进行实际操作[^2]。此外,参与实际项目(如数据分析、自然语言处理、图像识别等)将有助于将理论应用于实践中,并通过网络资源、开源社区专业论坛解决遇到的问题。 如果拥有足够的计算资源数据,可以尝试自行训练大型模型。这通常需要大量的计算资源(如GPU或TPU)大规模的数据集,同时选择适当的深度学习框架并编写模型训练代码。另一种更常见的方法是使用由大型组织预训练的大模型(如OpenAI、Google、Facebook等提供的模型),并在自己的项目中进行微调以适应特定任务[^4]。 多模态模型(如CLIP、Stable Diffusion或LLaVA)能够处理多种类型的输入(文本、图像、音频等),并使用统一的嵌入空间,解锁了如文本到图像等强大的应用。对于希望运行大型语言模型(LLMs)的开发者,这些模型提供了丰富的功能灵活性[^5]。 持续学习与实践是通往未来智能世界的关键。随着技术的不断进步,未来的大模型将更加智能、高效,为人类带来更多的便利与创新[^3]。 ```python # 示例:使用PyTorch加载预训练模型 import torch from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModel.from_pretrained("bert-base-uncased") text = "Replace me by any text you'd like." encoded_input = tokenizer(text, return_tensors='pt') output = model(**encoded_input) print(output) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值