大语言模型LLMBook -5

2.2 长上下文模型和新型架构

1 长上下文

1 长度外推Length Extrapolation

  • ALiBi位置编码:增加负偏执 -m(i-j)
  • 扩展位置编码:以RoPE
    • 修改位置索引
      在这里插入图片描述

    • 修改旋转基:对旋转基θi进行缩放;修改底数b

2 调整上下文窗口

  • 并行上下文窗口
  • Λ形上下文窗口
  • 词元选择
    在这里插入图片描述
    在这里插入图片描述

3 基于长文本数据继续预训练

在这里插入图片描述

2 新型模型结构

SSM参数化状态空间模型:RNN&CNN结合体

Mamba

  • 引入基于当前输入的信息选择机制:非线性

RWKV

  • 词元偏移
  • 时间混合模块
  • 频道混合模块

RetNet

  • 使用多尺度保留模块替换多头注意力

Hyena

  • 使用长卷积模块替换多头注意力
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值