LLM：LLaMA模型和微调的Alpaca模型

原创已于 2023-06-21 12:53:32 修改 · 1.9k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#llama

于 2023-05-31 16:26:15 首次发布

LLM 专栏收录该内容

14 篇文章

订阅专栏

LLaMA是斯坦福推出的一款70亿参数的Transformer解码器模型，采用RoPE旋转位置编码和SwiGLU激活函数。该模型在正则化方面采用了RMSNorm的预规范化。Alpaca是其中文版本，提供了本地推理和快速部署的方法。训练过程中使用了AdamW优化器和余弦学习率调度策略。

LLaMA模型

简单了解[LeCun狂赞：600刀GPT-3.5平替！斯坦福70亿参数「羊驼」爆火，LLaMA杀疯了]

论文原文：https://arxiv.org/abs/2302.13971v1

预训练数据

模型架构

模型就是用的transformer的decoder，模型设计的不同点在于：

1 Position Embedding：RoPE旋转位置编码rotary-embedding

删除了绝对位置嵌入，而是在网络的每一层添加了Sujianlin等人（2021）引入的旋转位置嵌入（RoPE）。

现阶段被大多数模型采用的位置编码方案，具有很好的外推性。

[RoPE旋转位置编码]

2 Feedforward Layer

采用SwiGLU；Feedforward变化为(8/3)倍的隐含层大小，即2/3*4d而不是4d。

SwiGLU激活函数：

Swish=x⋅sigmoid(βx)

源于PaLM中使用的[SwiGLU激活函数]

3 Layer Normalization: 基于RMSNorm的Pre-Normalization

同GPT3。

Pre-Normalization

RMS Pre-Norm

[LLM：大模型的正则化_-柚子皮-的博客-优快云博客]

不同模型的超参数的详细信息。

训练细节

使用AdamW优化器进行训练（Loshchilov和Hutter，2017），具有以下超参数：β1=0.9，β2=0.95。

使用余弦学习速率表，使得最终学习速率等于最大学习速率的10%。我们使用0.1的权重衰减和1.0的梯度裁剪。

使用2000个预热步骤，并根据模型的大小改变学习速度和批量大小。

Alpaca模型

[Stanford CRFM]

中文聊天aipaca

GitHub - ymcui/Chinese-LLaMA-Alpaca

内容导引

章节	描述
⏬模型下载	中文LLaMA、Alpaca大模型下载地址
🈴合并模型	（重要）介绍如何将下载的LoRA模型与原版LLaMA合并
💻本地推理与快速部署	介绍了如何对模型进行量化并使用个人电脑部署并体验大模型
💯系统效果	介绍了部分场景和任务下的使用体验效果
📝训练细节	介绍了中文LLaMA、Alpaca大模型的训练细节

安装

python3.8

# wget https://download.pytorch.org/whl/cu111/torch-1.10.2%2Bcu111-cp38-cp38-linux_x86_64.whl
# wget https://download.pytorch.org/whl/cu111/torchvision-0.11.3%2Bcu111-cp38-cp38-linux_x86_64.whl
# wget https://download.pytorch.org/whl/cu111/torchaudio-0.10.2%2Bcu111-cp38-cp38-linux_x86_64.whl

# torch+cuda
# 进入whl所在目录
pip3 install torch-1.10.2+cu111-cp38-cp38-linux_x86_64.whl torchaudio-0.10.2+cu111-cp38-cp38-linux_x86_64.whl torchvision-0.11.3+cu111-cp38-cp38-linux_x86_64.whl
# transformers
pip3 install transformers -i https://pypi.tuna.tsinghua.edu.cn/simple
# others
pip3 install fire fairscale sentencepiece -i https://pypi.tuna.tsinghua.edu.cn/simple

from:LLM：LLaMA模型和微调的Alpaca模型_-柚子皮-的博客-优快云博客

ref:[代码角度看LLaMA语言模型：Meta最新模型LLaMA细节与代码详解]

[LLaMA：开源的高效的基础语言模型 - 简书]