# 文章核心总结与翻译
一、主要内容
该研究针对Transformer模型因注意力机制的二次计算复杂度和内存占用限制,无法处理超长上下文的问题,提出了一种基于“标志令牌(landmark token)”的注意力机制(Landmark Attention)。核心思路是将输入文本分割为固定长度的块,每个块末尾插入一个标志令牌作为该块的代表性向量,通过训练让注意力机制借助标志令牌筛选相关块,而非直接对所有令牌计算注意力。
- 训练阶段:在文本语料中每间隔固定数量令牌插入标志令牌,采用分组softmax(Grouped Softmax)机制训练模型,使标志令牌的键向量能表征对应块的语义,注意力权重同时依赖令牌自身键向量与所在块标志令牌的键向量相似度。
- 推理阶段:将输入拆分为多个片段,通过缓存存储历史块的键值对(KV cache),仅加载被标志令牌筛选出的相关块进行注意力计算,可结合FAISS等高效数据结构优化检索,并通过“节俭位置映射(stingy position mapping)”解决位置编码外推问题。
- 实验验证:在PG-19(英文书籍)和arXiv数学论文数据集上,模型性能与Transformer-XL相当但计算量显著降低;通过微调LLaMA 7B,成功将其上下文长度扩展至32k+令牌(与GPT-4相当),在超长上下文的关键信息检索任务中准确率达98%。
二、创新点
- 保留随机访问灵活性

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



