一、摘要
本文介绍来自Meta的论文《LLaMA: Open and Efficient Foundation Language Models》,这篇2023年的研究发布了开源的LLaMA系列大模型,轰动一时。
译文:
我们推出了 LLaMA,一系列参数规模从 70 亿到 650 亿的基础语言模型。我们使用数万亿的标记对模型进行训练,并证明仅使用公开可用的数据集就能训练出最先进的模型,而无需依赖专有和难以获取的数据集。特别是,LLaMA - 13B 在大多数基准测试中优于 GPT - 3(1750 亿参数),而 LLaMA - 65B 与最好的模型 Chinchilla - 70B 和 PaLM - 540B 具有竞争力。我们将所有模型向研究社区开源。
二、核心创新点
正如论文摘要中说的,仅使用公开可用的数据集就能训练出最先进的大模型,因此作者使用了多个数据集混合进行模型预训练,此外就是一些架构上的小调整。