大模型(Large Models)的分类可以从不同角度理解,尤其随着大语言模型(LLM)、多模态模型、基础模型的快速发展,我们可以从以下几大维度对其进行系统分类:
✅ 一、按输入输出模态分类(单模态 vs 多模态)
| 类型 | 说明 | 代表模型 |
|---|
| 单模态大模型 | 输入输出只涉及一种模态(如文本、图像、语音) | GPT(文本)、Whisper(语音识别)、DALL·E(图像生成) |
| 多模态大模型 | 支持多种模态之间的联合建模(图文、音视等) | Gemini、GPT-4o、Gato、Kosmos、Flamingo、MiniGPT |
✅ 二、按任务类型分类(生成式 vs 判别式)
| 类型 | 说明 | 示例 |
|---|
| 生成式大模型 | 根据输入生成新的内容(如续写、翻译、回答) | GPT、Claude、PaLM、Gemini、LLama |
| 判别式大模型 | 用于分类、评分、判断匹配等(不输出自由文本) | BERT、ERNIE、RoBERTa(通常用于微调) |
有的模型(如 BERT)不能生成文本,只能输出“是/否”、“分类标签”等结果,因此是判别式。
✅ 三、按训练目标分类(语言建模方式)
| 类型 | 说明 | 示例 |
|---|
| 自回归语言模型(Auto-Regressive, AR) | 基于前文生成下一个 token,适合生成任务 | GPT 系列、LLaMA、Bloom |
| 自编码语言模型(Auto-Encoding, AE) | 基于掩码预测(MLM),适合理解任务 | BERT、RoBERTa、ERNIE |
| Encoder-Decoder 模型 | 编码器理解上下文,解码器生成新句子 | T5、mT5、UL2、BART、FLAN-T5 |
✅ 四、按模型能力或范式分类
| 类型 | 说明 | 代表模型 |
|---|
| 语言大模型(LLM) | 以自然语言为主要处理对象,具备上下文理解、问答、翻译、推理等能力 | GPT-3/4、Claude、LLaMA、Gemini |
| 基础模型(Foundation Models) | 通过海量数据预训练,在多个任务上微调或零样本应用 | GPT、PaLM、DINO、CLIP |
| 统一模型(Generalist Models) | 能同时处理多任务多模态,比如“一个模型玩所有游戏” | Gato(DeepMind)、GPT-4o |
| 专家路由模型(Mixture of Experts, MoE) | 由多个子模型组成,输入动态选择部分激活 | Switch Transformer、GLaM、Mixtral |
✅ 五、按开源程度分类
| 类型 | 说明 | 代表模型 |
|---|
| 开源大模型 | 参数、结构、代码、权重公开 | LLaMA、Mistral、Bloom、Baichuan、ChatGLM |
| 闭源大模型 | 不公开参数和训练细节 | GPT-4/4o、Claude、Gemini、文心一言 |
✅ 六、按训练数据模态分类
| 模态 | 输入/训练数据类型 | 代表模型 |
|---|
| 文本大模型 | 纯文本 | GPT、BERT、T5 |
| 图像大模型 | 图像数据 | DALL·E、Stable Diffusion、SAM、CLIP(部分) |
| 语音大模型 | 语音波形/频谱 | Whisper、Bark、VALL-E |
| 图文大模型 | 联合建模图像+文本 | Flamingo、BLIP-2、GPT-4o |
| 视听多模态 | 视频+音频+文本 | Gemini、Gato、GPT-4o、Sora(视频) |
✅ 七、按应用方向分类
| 领域 | 对应大模型 |
|---|
| 通用对话 | ChatGPT, Claude, Gemini, GLM |
| 医疗问答 | MedPaLM, BioGPT |
| 代码生成 | Codex, CodeLLaMA, DeepSeekCoder |
| 学术搜索 | SciBERT, Galactica |
| 法律/金融/工业 | LawGPT、FinGPT、商汤书生、金山文档助手等 |
✅ 小结:一句话总结各分类维度
大模型的分类可以从模态(单/多)、任务(生成/判别)、结构(自回归/自编码)、能力(通用/专家)、开源性、数据模态和应用方向等多个维度综合考虑。