面试题：LLama1, LLama2和LLama3的区别有哪些？

最新推荐文章于 2025-09-26 01:02:21 发布

原创最新推荐文章于 2025-09-26 01:02:21 发布 · 1k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #llama #语言模型 #ocr #microsoft

参数规模

第一代和第二代的Llama模型都包含了四个不同参数规模的版本，其中最小的模型参数规模在70亿，往上分别有130亿、340亿和700亿（第一代最高的是650亿）。而此次发布的第三代Llama3模型，目前公开的只有80亿参数规模版本和700亿版本。而根据透露，最高的参数版本是4000亿参数规模的模型。只是目前还在训练中。
模型结构

LLama3全部都用了GQA来实现加速训练和推理。
上下文长度
Llama三代模型的上下文长度分别是2K、4K和8K，虽然Llama3训练是8K上下文，但是按照目前业界的技术，应该是可以继续拓展到更长上下文的。而官方也说过，未来Llama3会有更长上下文的版本。
词汇表
在Llama1和Llama2中，MetaAI的词汇表都是32K大小，这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K，也就是说它的tokenizer有了较大的变化。更大的词汇表意味着更强的语义表达能力，也是支持更多语言的一个基础。
训练过程
训练过程的升级我们主要看训练时间和训练数据的变化。此前，业界一直说大模型的训练成本在下降。但是从Llama3的变化看，下降的是单位训练成本，但是大模型总的训练成本其实在大幅增长。
训练数据
Llama3模型的训练数据大幅增长，Llama3的训练数据达到了15万亿，比第一代和第二代Llama模型加在一起还多好几倍。如下图所示，第一代的小一点的模型训练数据是1万亿tokens，而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列，训练数据都增长到了2万亿tokens。
训练时长
在Llama1论文发布的时候，训练Llama1模型可能花费了几百万上千万美金。原因是650亿参数的Llama1模型训练了102万个GPU小时，按照公有云A100租赁的价格打折计算，这个成本也是几百万美金。到了Llama3模型这里，训练成本的增长更为恐怖，Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下：
评价指标
三代不同Llama系列在综合理解评测基准MMLU、数学推理GSM8K以及代码能力HumanEval的评测结果显示，Llama3相比Llama2的提升应该是比Llama2相比Llama1的提升要高的多的。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述