大模型理论-架构

1. 基础概念

  • 语言模型本质上是一个将输入(prompt)映射到输出(completion)的系统
  • 处理流程:文本 -> 分词 -> 向量表示 -> 模型处理 -> 输出

2. 分词机制(Tokenization)

  • 作用:将输入文本转换为模型可处理的词元(token)序列
  • 主要方法:
    1. 基于空格分词:简单但存在局限性
    2. BPE (Byte Pair Encoding):
      • 通过频率合并常见字符对
      • 可以处理未知词
    3. Unigram Model:
      • 基于概率模型的分词方法
      • 使用似然值评估分词质量

3. 模型架构分类

  1. 编码端(Encoder-Only)架构:
    • 代表模型:BERT、RoBERTa
    • 特点:擅长理解任务,支持双向上下文
    • 限制:不适合生成任务
  2. 解码端(Decoder-Only)架构:
    • 代表模型:GPT系列
    • 特点:适合生成任务,单向上下文依赖
    • 应用:文本生成、续写等
  3. 编码-解码端(Encoder-Decoder)架构:
    • 代表模型:BART、T5
    • 特点:结合两种架构优点
    • 应用:翻译、摘要等任务

4. Transformer核心组件

  1. 注意力机制:
    • 通过查询(query)、键(key)、值(value)计算注意力权重
    • 支持多头注意力,从不同角度关注信息
  2. 位置编码:
    • 解决序列位置信息问题
    • 使用正弦和余弦函数编码位置信息
  3. 优化技术:
    • 残差连接:缓解梯度消失
    • 层归一化:保持数值稳定

5. 模型优化考虑

  • 需平衡词元数量:过多或过少都会影响效果
  • 注意模型深度和宽度的权衡
  • 考虑计算效率和内存使用
  • 针对不同任务选择合适的架构

通过学习。理解了现代大模型架构是如何通过分词、注意力机制等组件来处理和理解人类语言的。不同的架构设计适合不同的应用场景,这也是为什么会有多种类型的语言模型存在的原因。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值