1. 基础概念
- 语言模型本质上是一个将输入(prompt)映射到输出(completion)的系统
- 处理流程:文本 -> 分词 -> 向量表示 -> 模型处理 -> 输出
2. 分词机制(Tokenization)
- 作用:将输入文本转换为模型可处理的词元(token)序列
- 主要方法:
- 基于空格分词:简单但存在局限性
- BPE (Byte Pair Encoding):
- 通过频率合并常见字符对
- 可以处理未知词
- Unigram Model:
- 基于概率模型的分词方法
- 使用似然值评估分词质量
3. 模型架构分类
- 编码端(Encoder-Only)架构:
- 代表模型:BERT、RoBERTa
- 特点:擅长理解任务,支持双向上下文
- 限制:不适合生成任务
- 解码端(Decoder-Only)架构:
- 代表模型:GPT系列
- 特点:适合生成任务,单向上下文依赖
- 应用:文本生成、续写等
- 编码-解码端(Encoder-Decoder)架构:
- 代表模型:BART、T5
- 特点:结合两种架构优点
- 应用:翻译、摘要等任务
4. Transformer核心组件
- 注意力机制:
- 通过查询(query)、键(key)、值(value)计算注意力权重
- 支持多头注意力,从不同角度关注信息
- 位置编码:
- 解决序列位置信息问题
- 使用正弦和余弦函数编码位置信息
- 优化技术:
- 残差连接:缓解梯度消失
- 层归一化:保持数值稳定
5. 模型优化考虑
- 需平衡词元数量:过多或过少都会影响效果
- 注意模型深度和宽度的权衡
- 考虑计算效率和内存使用
- 针对不同任务选择合适的架构
通过学习。理解了现代大模型架构是如何通过分词、注意力机制等组件来处理和理解人类语言的。不同的架构设计适合不同的应用场景,这也是为什么会有多种类型的语言模型存在的原因。