【大模型实战案例】手把手教大家微调大模型 Llama 3

原创

于 2025-04-07 14:13:09 发布 · 695 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#llama #语言模型 #人工智能 #embedding #开源 #transformer

Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，我们对 Llama 3 进行了微调！！！

今天手把手教大家使用 XTuner 微调 Llama 3 模型。

Llama 3 概览

首先我们来回顾一下 Llama 3 亮点概览～

首次出现 8B 模型，且 8B 模型与 70B模型全系列使用 GQA (Group Query Attention)。
最大模型达到 400B 规模大小，未来几个月内发布！
分词器由 SentencePiece 换为了 Tiktoken，与 GPT4 保持一致。
相比于 Llama2 的 32000 词表大小，Llama3 的词表大小来到了惊人的 128256。
数据方面上，Llama3 使用了约 15T token 用于模型的训练。
开源模型大小为 8B 和 70B 两种，每种规模均有开源基座模型和 instruct 模型。
Llama3 8B Instruct 模型在数学与代码能力方面数倍于 Llama2 7B chat 模型。

2*A100 即可全量微调

8K 上下文 Llama3 8B

在正式实战之前我们先看一下 XTuner 团队对 Llama 3 8B 的性能测试结果，XTuner 团队在 Llama 3 发布之后光速进行了支持并进行了测速，以下使用不同数量 GPU 全量微调 Llama3 8B 时的训练效率，仅需 2 * A100 80G 即可全量微调 8k 上下文 Llama3 8B 。

实践教程

Web Demo 部署

本小节将带大家手把手在 InternStudio 部署 Llama3 Web Demo。

环境配置

conda create -n llama3 python=3.10
conda activate llama3
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia