2.2 长上下文模型和新型架构 1 长上下文 1 长度外推Length Extrapolation ALiBi位置编码:增加负偏执 -m(i-j)扩展位置编码:以RoPE 修改位置索引 修改旋转基:对旋转基θi进行缩放;修改底数b 2 调整上下文窗口 并行上下文窗口Λ形上下文窗口词元选择 3 基于长文本数据继续预训练 2 新型模型结构 SSM参数化状态空间模型:RNN&CNN结合体 Mamba 引入基于当前输入的信息选择机制:非线性 RWKV 词元偏移时间混合模块频道混合模块 RetNet 使用多尺度保留模块替换多头注意力 Hyena 使用长卷积模块替换多头注意力