大语言模型发展历程(2025.3.12)学习心得

大语言模型发展不是一蹴而就,它经历了下文中展示的 统计语言模型(SLM),神经语言模型(NLM ),预训练语言模型(PLM)以及现在的大语言模型(LLM)几个重要阶段,每一阶段都凝结着无数专业人士的心血。以下是对这几个阶段的一些总结介绍。

1. 统计语言模型(SLM)

时间:1990年代

核心技术:n-gram模型、马尔可夫假

特点

  • 基于固定长度上下文预测词概率
  • 数据稀疏问题严重(维数灾难)
  • 依赖平滑技术(回退估计、古德-图灵估计)

应用:信息检索、文本分类

局限性:无法建模复杂语义关系

2. 神经语言模型(NLM)

时间:2010年代初期

核心技术:神经网络(RNN)、词嵌入(word2vec)

特点

  • 分布式词表示(低维稠密向量)
  • 解决数据稀疏问题
  • 支持语义特征提取

代表模型:word2vec、RNN-LM

局限性:模型可迁移性差,依赖特征工程

3. 预训练语言模型(PLM)

时间:2018年兴起

核心技术:Transformer架构、自注意力机制

特点

  • 预训练+微调范式
  • 上下文感知语义建模
  • 编码器(BERT)与解码器(GPT)架构分工

代表模型:ELMo、BERT、GPT-1/2

局限性:需监督数据微调,任务泛化能力有限

4. 大语言模型(LLM)

时间:2020年至今

核心技术:模型规模扩展(参数/数据/算力)

特点

  • 涌现能力:上下文学习(ICL)、零样本推理
  • 通用任务求解(无需微调)
  • 多模态扩展潜力

代表模型:GPT-3/4、ChatGPT、LLaMA

局限性:计算成本高、黑箱性显著

本篇参考《大语言模型》赵鑫编著一书,根据我自己的理解和AI帮助完成了这篇文章(新手小白)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值