大模型的理论基础 task1

GitHub - datawhalechina/so-large-lm: 大模型基础: 一文了解大模型基础知识

语言模型的核心点可以归纳为几个点:

从 n-gram 到 GPT-3,语言模型的核心发展可以概括为以下几个关键方面:

1. 上下文建模能力
- n-gram 模型:只能捕捉固定窗口大小(n)的上下文,对长距离依赖建模能力弱
- RNN/LSTM:可以理论上捕捉任意长度的上下文,但实际效果受梯度消失/爆炸影响
- Transformer:通过自注意力机制,可以直接建模任意位置之间的关系,大幅提升了长距离依赖建模能力

2. 参数共享与表征学习
- n-gram:每个上下文组合都需要单独的参数,参数量随n指数增长
- 神经网络模型:通过词嵌入和参数共享,可以学习到词语和短语的分布式表示
- 预训练模型:通过海量文本预训练,学习到通用的语言表示,可迁移到下游任务

3. 概率建模方法
- n-gram:基于条件概率和频率统计
- 神经语言模型:使用神经网络建模条件概率分布
- Transform:保持概率建模框架,但通过自注意力和位置编码增强了建模能力

4. 训练目标
- 从最初的下一个词预测
- 发展出掩码语言模型(MLM)
- 到生成式预训练(GPT)等多样化的预训练目标

5. 规模效应
- 模型参数量从最初的几千到现在的数千亿
- 训练数据从小规模语料库到互联网级别的数据规模
- 计算资源从CPU到大规模GPU/TPU集群

核心突破:
1. Transformer架构的提出解决了长距离依赖问题
2. 大规模预训练范式确立了通用语言理解的基础
3. 模型规模和数据规模的显著提升带来了涌现能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值