<论文>聊聊初代LLaMA

一、摘要

        本文介绍来自Meta的论文《LLaMA: Open and Efficient Foundation Language Models》,这篇2023年的研究发布了开源的LLaMA系列大模型,轰动一时。

译文:

        我们推出了 LLaMA,一系列参数规模从 70 亿到 650 亿的基础语言模型。我们使用数万亿的标记对模型进行训练,并证明仅使用公开可用的数据集就能训练出最先进的模型,而无需依赖专有和难以获取的数据集。特别是,LLaMA - 13B 在大多数基准测试中优于 GPT - 3(1750 亿参数),而 LLaMA - 65B 与最好的模型 Chinchilla - 70B 和 PaLM - 540B 具有竞争力。我们将所有模型向研究社区开源。

二、核心创新点

        正如论文摘要中说的,仅使用公开可用的数据集就能训练出最先进的大模型,因此作者使用了多个数据集混合进行模型预训练,此外就是一些架构上的小调整。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值