©NLP论文解读 原创•作者 | 杨健
专栏系列概览
该专栏主要介绍自然语言处理领域目前比较前沿的领域—知识增强的预训练语言模型。通过解读该主题具备代表性的论文以及对应的代码,为大家揭示当前最新的发展状况。为了能够和大家更好的分享自己的收获,笔者将遵循下面几个原则。
1、理论讲解尽量深入浅出,通过举例子或者大白话讲解论文,而非仅针对原文翻译。
2、针对论文中一些重要的术语,适时的做出解释。
3、理论和实践相结合,除了理论讲解,还会加入部分重要代码讲解。并且分享个人认为重要的一些工程技巧。
知识增强的预训练模型
工欲善其事必先利其器。今天的文章主要介绍 是什么、它的背景知识以及分类。后续的文章将进一步深入,详细介绍每一类知识增强的预训练模型。
从哪里来
自从神经网络成为主流以来,自然语言理解等任务大多基于神经网络为各个下游场景单独设计模型。然而这类模型仅能够适用于单一下游任务,通用性不足。
相比自然语言理解领域,由于图像处理领域拥有大量的有标签数据,研究人员利用迁移学习的思想,在数年前就已经能训练出具备一般性图像特征的大规模预训练模型。
然而,一方面自然语言处理领域缺少足够的标注数据,另一方面循环神经网络架构也遭受梯度爆炸的困扰,使得该领域的大规模预训练模型迟迟未能出现。
Transformer的出现为解决这一问题带来了希望,一方面模型通过自注意力结构和残差链接解决了循环神经网络架构梯度爆炸的问题,从而使模型得以堆叠多层神经网络,另一方面通过引入自监督的预训练任务,也解决了标注数据不足的问题。
<