LLaMA：开放高效的基础语言模型

最新推荐文章于 2025-02-18 14:55:19 发布

AIGC大模型吱屋猪

最新推荐文章于 2025-02-18 14:55:19 发布

阅读量858

点赞数 13

CC 4.0 BY-SA版权

文章标签： llama 语言模型人工智能 langchain 开源深度学习机器学习

本文链接：https://blog.youkuaiyun.com/mama19971023/article/details/140827230

LLaMA：开放高效的基础语言模型

论文发表时间：2023-02-27

原文地址：https://arxiv.org/pdf/2302.13971

Abstract（摘要）
Introduction（引言）
Approach（方法）
Pre-training（预训练）
Architecture（架构）
Optimizer（优化器）
Efficient implementation（高效训练）
Main results（性能表现）
Instruction Finetuning（指令微调）
Bias, Toxicity and Misinformation（偏见、毒性和错误信息）
RealToxicityPrompts（真实毒性）
CrowS-Pairs（社会偏见）
WinoGender（性别偏见）
TruthfulQA（识别真实陈述）
Carbon footprint（碳排影响）
Related work（相关工作）
Conclusion（总结）

Abstract（摘要）

本文引入 LLaMA：一个从 7B 到 65B 参数的基础语言模型集合。我们在数万亿个 token 上训练我们的模型，并表明完全使用公开可用的数据集训练最先进的模型是可行的，而不需要使用专有的和不可访问的数据集。其中，**LLaMA-13B 在多数基准上优于 GPT-3(175B)，LLaMA-65B 与最优模型 Chinchilla-70B 和 PaLM-540B 具有竞争力。**我们将所有的模型发布到研究社区.

Introduction（引言）

在论文的"Introduction"部分，作者介绍了大型语言模型（LLMs）的重要性，并阐述了他们开发 LLaMA 系列模型的动机和目标。以下是该部分内容的详细概括：

大型语言模型（LLMs）在处理基于文本的任务方面展现出了卓越的能力，特别是在接受少量示例或文本指令后执行新任务的能力。这种"少样本"学习特性通常在模型扩展到足够大的规模时显现出来。过去的研究工作集中在进一步扩展这些模型的规模，基于一个普遍的假设：更多的参数将带来更好的性能。

然而，Hoffmann 等人（2022）的研究表明，在给定的计算预算下，最佳性能并不是由最大的模型实现的，而是通过在更多数据上训练较小的模型实现的。

LLaMA 项目的目标是训练一系列在不同推理预算下都能实现最佳性能的语言模型。作者们特别关注在给定目标性能水平时，选择最快的推理模型，而不是最快的训练模型。 例如，尽管 Hoffmann 等人（2022）推荐在 200B 个 token 上训练一个 10B 的模型，但作者们发现即使是 7B 的模型，在训练超过 1T 个 token 后性能仍在提升。

**LLaMA 模型系列从 7B 到 65B 参数不等，展现出与现有最佳大型语言模型（如 Chinchilla-70B 和 PaLM-540B）相媲美的竞争力。**特别是，LLaMA-13B 在大多数基准测试中超过了 GPT-3（175B），尽管规模小了 10 倍。作者们相信，这种模型将有助于民主化 LLMs 的访问和研究，因为它可以在单个 GPU 上运行。

与 Chinchilla、PaLM 或 GPT-3 不同，LLaMA 项目完全使用公开可用的数据，这使得工作与开源兼容，而大多数现有模型依赖于不公开或未记录的数据。 作者们还提到，尽管存在一些例外，如 OPT、GPT-NeoX、BLOOM 和 GLM 等开源模型，但它们在性能上并不与 PaLM-62B 或 Chinchilla 竞争。

作者概述了论文的其余部分，包括对变换器架构的修改、训练方法、模型性能的评估，以及使用负责任 AI 社区的最新基准测试来识别模型中可能存在的偏见和毒性。

作者希望将这些模型发布给研究社区，以促进大型语言模型的发展，并帮助改进它们的健壮性，减少已知问题，如毒性和偏见。

Approach（方法）

详细描述了 LLaMA 模型的训练过程，包括数据的选择和处理、模型架构的设计、优化策略以及实现效率的优化。作者们展示了如何在不使用专有数据集的情况下，通过公开数据集训练出具有竞争性能的语言模型。

Pre-training（预训练）

LLaMA 的训练数据集由多个不同来源的数据混合而成，形成了一个多样化的领域覆盖。作者们特别强调，**所有使用的数据都是公开可用的，并且与开源兼容。**数据集主要包括以下几个部分：

CommonCrawl：占训练集的 67%，包括 2017 至 2020 年的五个 CommonCrawl 数据转储。使用 CCNet 管道进行预处理，包括去重、语言识别和低质量内容过滤。
C4 数据集：占 15%，包含公开可用的 C4 数据集，通过预处理提高性能，包括去重和语言识别。
GitHub 数据：占 4.5%，使用 Google BigQuery 上的公共 GitHub 数据集，保留 Apache、BSD 和 MIT 许可的项目，并过滤低质量文件。
Wikipedia：占 4.5%，包括 2022 年 6 月至 8 月的 Wikipedia 转储，涵盖使用拉丁或西里尔字母的 20 种语言。
书籍和学术文献：包括 Gutenberg 项目和 Books3 部分，去除超过 90%内容重叠的书籍。
ArXiv：占 2.5%，处理 arXiv 的 Latex 文件，增加科学数据。
Stack Exchange：占 2%，包括 Stack Exchange 的转储，涵盖从计算机科学到化学的多个领域。