小白学大模型：从零搭建LLaMA，大模型入门到精通，收藏这篇就足够了！

最新推荐文章于 2025-11-23 18:06:24 发布

原创最新推荐文章于 2025-11-23 18:06:24 发布 · 682 阅读

CC 4.0 BY-SA版权

文章标签：

#llama #开源 #人工智能 #langchain #机器学习 #agent #rag

LLaMA 的开发基于一个核心理念：在给定计算预算下，通过增加训练数据量而非单纯增加模型参数，可以达到更好的性能。这与之前普遍认为“参数越多性能越好”的观点不同，并特别强调了 推理成本 的重要性。尽管训练一个大型号的模型可能更快达到某个性能水平，但一个参数更少但训练更久的小模型在实际应用中的推理成本会更低、速度更快。

LLaMA-13B 在大多数基准测试中表现优于拥有 175B 参数的 GPT-3，尽管其模型规模小了十倍。这使得 LLaMA-13B 可以在单个 GPU 上运行，从而“民主化”了大型语言模型的研究和使用。

架构与优化 (Architecture and Optimizer)

LLaMA 沿用了 Transformer 架构，但引入了几个关键的改进以提升性能和训练稳定性，这些改进借鉴了其他现有模型：

Pre-normalization
借鉴 GPT-3，在每个 Transformer 子层的输入端进行归一化（而非输出端），并使用 RMSNorm 函数来提高训练稳定性。
SwiGLU 激活函数
借鉴 PaLM，用 SwiGLU 替换了传统的 ReLU 非线性激活函数，以提升性能。
Rotary Embeddings (RoPE)
借鉴 GPTNeo，移除了绝对位置嵌入，转而在网络的每一层添加了旋转位置嵌入。
优化器
使用 AdamW 优化器，并采用了余弦学习率调度，以及权重衰减和梯度裁剪。具体的超参数设置根据模型大小有所不同（详见文档中的表格）。

步骤1：构建数据集

创建输入和目标序列: 对于每一个随机选定的起始索引 i，代码创建两个序列：

输入序列 x
这是一个长度为 context_window 的序列，从索引 i 开始。
目标序列 y
这是与 x 对应的下一个字符序列，从索引 i+1 开始，长度同样为 context_window。例如，如果输入是 “hello”，那么目标就是 "ello "（假设空格是下一个字符）。这种“输入-下一个字符”的关系是训练自回归语言模型的标准方式。

用于让一个预训练的语言模型生成文本。该函数遵循了自回归（autoregressive）生成的核心逻辑：每次生成一个新 token，并将其添加到序列中，然后使用新序列作为输入来预测下一个 token。

步骤2：RMSNorm

RMSNorm（Root Mean Square Normalization）层，这是一种用于深度学习模型（特别是 Transformer 架构）的归一化技术，旨在替代传统的 LayerNorm，以提高训练效率和稳定性。RMSNorm 的设计灵感来源于 Layer Normalization，但它进行了一定的简化：

省略均值中心化
RMSNorm 不减去均值。它只对输入张量的每个元素进行缩放，缩放因子是该序列元素的均方根（RMS）。传统的 LayerNorm 既会减去均值，也会除以标准差。
计算简单
RMSNorm 的计算只涉及平方、求和、开方和除法，比 LayerNorm 省去了均值计算，因此在计算上更加高效。
加速训练
实践证明，RMSNorm 在 Transformer 模型中能加速训练过程，并保持稳定的性能。