UniLM: Unified Language Model Pre-training for Natural Language Understanding and Generation
@ 33rd Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, Canada.
简介
目前,预训练的语言模型(Language model )已经大幅地提高了各种自然语言处理任务的水平。它一般使用大量文本数据,通过特定的语言模型学习文本的上下文语义表示,并且可以进行微调以适应后续任务。尽管BERT模型已经显著地提高了大量自然语言理解任务的效果,但是由于它的双向性使得它很难应用于自然语言生成任务。
这篇论文提出了一种新型的统一的预训练语言模型(UniLM),既可以应用于自然语言理解(NLU)任务,又可以应用于自然语言生成(NLG)任务。这个模型使用了三种类型的语言建模任务进行预训练:单向模型、双向模型、序列到序列预测模型。其统一建模的实现使用了共享的 Transformer 网络,并且还使用了特定的自注意掩码来控制预测条件所处的上下文。在 GLUE 基准以及 SQuAD 2.0 和 CoQA 问答任务上,UniLM 优于 BERT。
此外,UniLM 在五个自然语言生成数据集上成为了新的当前最佳,包括将 CNN/DailyMail 抽象式摘要 ROUGE-L 结果提升至 40.51(2.04 的绝对改善)、将 Gigaword 抽象式摘要 ROUGE-L 结果提升至 35.75(0.86 的绝对改善)、将 CoQA 生成式问答 F1 分数提升至 82.5(37.1 的绝对改善)、将 SQuAD 问题生成 BLEU-4 结果提升至 22.12(3.75 的绝对改善)、将 DSTC7 基于文档的对话响应生成 NIST-4 结果提升至 2.67(人类表现为 2.65)。
预训练语言模型归类:AR、AE
-
AR:Autoregressive Language Modeling
-
AE: Autoencoding Lan