作者:APlayBoy 编辑:AI生成未来
链接:https://zhuanlan.zhihu.com/p/691719636
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
本篇博客全面汇总了大型语言模型(LLMs)。从早期的预训练神经语言模型开始,探讨了它们的起源和发展。重点讨论了Transformer架构及其三个主要分类:仅编码器PLMs、仅解码器PLM和编码器-解码器PLM。接着,文章聚焦于GPT、LLaMA和PaLM这三大LLM家族,阐述了它们的特点和对语言模型领域的贡献。此外,还涉及了其他重要的LLMs,展现了该领域的广泛性和多样性。这篇博客不仅是对LLMs历史和模型做了完整的梳理,也突出了它们在自然语言处理技术发展中的关键角色。
早期预训练神经语言模型
在探索大型语言模型(LLMs)的历史中,我们首先关注的是早期的预训练神经语言模型,它们可以视为现代LLMs的先驱。在这个领域中,特别引人注目的是GPT、LlaMA和PaLM这三大主要家族。每个家族都代表了LLMs的独特方向和突破。为了更深入地理解这些模型,我们准备了一张详细的对比表格。通过这张表格,我们可以清晰地看到各个模型的特性,进而了解它们之间的差异和各自的优势所在。
模型列表
Type | Model Name | #Parameters | Release | Base Models | Open Source | #Tokens |
---|---|---|---|---|---|---|
Encoder-Only | BERT | 110M, 340M | 2018 | - | ✅ | 137B |
Encoder-Only | RoBERTa | 355M | 2019 | - | ✅ | 2.2T |
Encoder-Only | ALBERT | 12M, 18M, 60M, 235M | 2019 | - | ✅ | 137B |
Encoder-Only | DeBERTa | - | 2020 | - | ✅ | - |
Encoder-Only | XLNet | 110M, 340M | 2019 | - | ✅ | 32.89B |
Decoder-only | GPT-1 | 120M | 2018 | - | ✅ | 1.3B |
Decoder-only | GPT-2 | 1.5B | 2019 | - | ✅ | 10B |
Encoder-Decoder | T5 (Base) | 223M | 2019 | - | ✅ | 156B |
Encoder-Decoder | MT5 (Base) | 300M | 2020 | - | ✅ | - |
Encoder-Decoder | BART (Base) | 139M | 2019 | - | ✅ | - |
GPT Family | GPT-3 | 125M, 350M, 760M, 1.3B, 2.7B, 6.7B, 13B, 175B | 2020 | - | ❌ | 300B |
GPT Family | CODEX | 12B | 2021 | GPT | ✅ | - |
GPT Family | WebGPT | 760M, 13B, 175B | 2021 | GPT-3 | ❌ | - |
GPT Family | GPT-4 | 1.76T | 2023 | - | ❌ | 13T |
LLaMA Family | LLaMA1 | 7B, 13B, 33B, 65B | 2023 | - | ✅ | 1T, 1.4T |
LLaMA Family | LLaMA2 | 7B, 13B, 34B, 70B | 2023 | - | ✅ | 2T |
LLaMA Family | Alpaca | 7B | 2023 | LLaMA1 | ✅ | - |
LLaMA Family | Vicuna-13B | 13B | 2023 | LLaMA1 | ✅ | - |
LLaMA Family | Koala | 13B | 2023 | LLaMA | ✅ | - |
LLaMA Family | Mistral-7B | 7.3B | 2023 | - | ✅ | - |
LLaMA Family | Code Llama | 34 | 2023 | LLaMA2 | ✅ | 500B |
LLaMA Family | LongLLaMA | 3B, 7B | 2023 | OpenLLaMA | ✅ | 1T |
LLaMA Family | LLaMA-Pro-8B | 8.3B | 2024 | LLaMA2-7B | ✅ | 80B |
LLaMA Family | TinyLlama-1.1B | 1.1B | 2024 | LLaMA1.1B | ✅ | 3T |
PaLM Family | PaLM | 8B, 62B, 540B | 2022 | - | ❌ | 780B |
PaLM Family | U-PaLM | 8B, 62B, 540B | 2022 | - | ❌ | 1.3B |
PaLM Family | PaLM-2 | 340B | 2023 | - | ✅ | 3.6T |
PaLM Family | Med-PaLM | 540B | 2022 | PaLM | ❌ | 780B |
PaLM Family | Med-PaLM 2 | - | 2023 | PaLM 2 | ❌ | - |
Other Popular LLMs | FLAN | 137B | 2021 | LaMDA-PT | ✅ | - |
Other Popular LLMs | Gopher | 280B | 2021 | - | ❌ | 300B |
Other Popular LLMs | ERNIE 4.0 | 10B | 2023 | - | ❌ | 4TB |
Other Popular LLMs | Retro | 7.5B | 2021 | - | ❌ | 600B |
Other Popular LLMs | LaMDA | 137B | 2022 | - | ❌ | 168B |
Other Popular LLMs | ChinChilla | 70B |