Abstract & Introduction & Related Work
- 研究任务
- 一种预训练方法,旨在更好地表示和预测文本的span
- 已有方法和相关工作
- 面临挑战
- 创新思路
- 在BERT的基础上,mask连续的随机span而不是tokens
- 训练span边界表征来预测被mask的span的全部内容,而不依赖其中的单个token表征
- 实验结论
- 在同样的训练数据下,在QA数据集上达到了sota
为了实现SpanBERT,我们建立在BERT的一个精心调整的副本上,它本身就大大超过了原始BERT。在建立我们的baseline的同时,我们发现在单段上进行预训练,而不是用下一句预测(NSP)目标的两个半长段,大大改善了大多数下游任务的性能。因此,我们将我们的修改加在调整后的单序列BERT baseline
Model
我们提出了SpanBERT,这是一种自我监督的预训练方法,旨在更好地代表和预测文本的跨度。我们的方法受到BERT(Devlin等人,2019)的启发,但在三个方面偏离了其双文本分类框架。首先,我们使用不同的随机过程来掩盖标记的跨度,而不是单个标记。我们还引入了一个新的辅助目标–SBO–该目标试图仅使用跨