大语言模型发展历程（2025.3.12）学习心得

最新推荐文章于 2025-05-12 13:21:02 发布

姊妹我想买靴子

最新推荐文章于 2025-05-12 13:21:02 发布

阅读量315

点赞数 2

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wobuxiangtouyang/article/details/146215745

版权

大语言模型发展不是一蹴而就，它经历了下文中展示的统计语言模型（SLM），神经语言模型（NLM ），预训练语言模型（PLM）以及现在的大语言模型（LLM）几个重要阶段，每一阶段都凝结着无数专业人士的心血。以下是对这几个阶段的一些总结介绍。

1. 统计语言模型（SLM）

时间：1990年代

核心技术：n-gram模型、马尔可夫假

特点：

基于固定长度上下文预测词概率
数据稀疏问题严重（维数灾难）
依赖平滑技术（回退估计、古德-图灵估计）

应用：信息检索、文本分类

局限性：无法建模复杂语义关系

2. 神经语言模型（NLM）

时间：2010年代初期

核心技术：神经网络（RNN）、词嵌入（word2vec）

特点：

分布式词表示（低维稠密向量）
解决数据稀疏问题
支持语义特征提取

代表模型：word2vec、RNN-LM

局限性：模型可迁移性差，依赖特征工程

3. 预训练语言模型（PLM）

时间：2018年兴起

核心技术：Transformer架构、自注意力机制

特点：

预训练+微调范式
上下文感知语义建模
编码器（BERT）与解码器（GPT）架构分工

代表模型：ELMo、BERT、GPT-1/2

局限性：需监督数据微调，任务泛化能力有限

4. 大语言模型（LLM）

时间：2020年至今

核心技术：模型规模扩展（参数/数据/算力）

特点：

涌现能力：上下文学习（ICL）、零样本推理
通用任务求解（无需微调）
多模态扩展潜力

代表模型：GPT-3/4、ChatGPT、LLaMA

局限性：计算成本高、黑箱性显著

本篇参考《大语言模型》赵鑫编著一书，根据我自己的理解和AI帮助完成了这篇文章（新手小白）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。