- Arxiv日期:2021.4.12
- 机构:University of Waterloo
关键词
- 大模型位置标记
- 算数推理
- 长度泛化
核心结论
1. 传统的语言处理方法明确使用语言学理论中的中间表示,而现代 Transformer 模型通过数据驱动的方法隐式学习这些表示,从而更灵活但也更难解释其内部的语言学知识结构
2. 通过对输入序列的简单操作(显式枚举数字位置的语义)将表示“注入”到 transformer 模型,实现算数推理
3. 不同的显式位置方式效果
主要方法
本文主要是实验结论,实验都是基于 pretrained-transformer 做的(T5模型)。
结论:对表面表示进行简单操作以显式地呈现语义可以帮助神经模型学习简单的算术任务(引出了后面index hint的工作)
后续 index hint 提高长度泛化能力的文章:
-
What algorithms can transformers learn? a study in length generalization(2024)
-
Transformers can achieve length generalization but not robustly. (2024)
注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文