大语言模型发展不是一蹴而就,它经历了下文中展示的 统计语言模型(SLM),神经语言模型(NLM ),预训练语言模型(PLM)以及现在的大语言模型(LLM)几个重要阶段,每一阶段都凝结着无数专业人士的心血。以下是对这几个阶段的一些总结介绍。
1. 统计语言模型(SLM)
时间:1990年代
核心技术:n-gram模型、马尔可夫假
特点:
- 基于固定长度上下文预测词概率
- 数据稀疏问题严重(维数灾难)
- 依赖平滑技术(回退估计、古德-图灵估计)
应用:信息检索、文本分类
局限性:无法建模复杂语义关系
2. 神经语言模型(NLM)
时间:2010年代初期
核心技术:神经网络(RNN)、词嵌入(word2vec)
特点:
- 分布式词表示(低维稠密向量)
- 解决数据稀疏问题
- 支持语义特征提取
代表模型:word2vec、RNN-LM
局限性:模型可迁移性差,依赖特征工程
3. 预训练语言模型(PLM)
时间:2018年兴起
核心技术:Transformer架构、自注意力机制
特点:
- 预训练+微调范式
- 上下文感知语义建模
- 编码器(BERT)与解码器(GPT)架构分工
代表模型:ELMo、BERT、GPT-1/2
局限性:需监督数据微调,任务泛化能力有限
4. 大语言模型(LLM)
时间:2020年至今
核心技术:模型规模扩展(参数/数据/算力)
特点:
- 涌现能力:上下文学习(ICL)、零样本推理
- 通用任务求解(无需微调)
- 多模态扩展潜力
代表模型:GPT-3/4、ChatGPT、LLaMA
局限性:计算成本高、黑箱性显著
本篇参考《大语言模型》赵鑫编著一书,根据我自己的理解和AI帮助完成了这篇文章(新手小白)