阿里巴巴达摩院：自然语言处理技术有哪些进展和趋势？

原创

于 2020-06-23 14:46:59 发布 · 6.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习/深度学习 #人工智能 #自然语言处理 #算法 #搜索推荐 #机器人 #物联网 #人机交互 #知识图谱 #智能硬件

回顾2019年自然语言处理(NLP)技术进展，包括预训练模型、跨语言NLP、知识图谱融合、智能人机交互及平台整合。展望2020年，NLP将深化认知智能，推动多语言、多模态融合，增强领域需求解决方案，拓宽知识图谱应用。

简介：达摩院发布的 “2020 十大科技趋势” 预测中，一个重要趋势就是人工智能从感知智能向认知智能演进。作为认知智能的一个重要核心技术，自然语言处理在过去一年中有了进一步的发展，无论从技术和产品都有显著的成果，例如大规模预训练语言模型的明显优势和广泛应用，智能对话和服务助理，结合领域需求的 NLP 技术和知识图谱等。本文分享达摩院自然语言处理技术小组各领域专家对过去一年 NLP 的技术，平台和产品方面的总结，并对新一年的趋势进行展望，描绘阿里自然语言处理技术的新十年。

2019 回顾：五大技术进展和四大应用与产品

回望过去，在自然语言处理技术的应用和研究领域发生了许多有意义的标志性事件，我们将从“技术进展”、“应用与产品”两大维度进行回顾。

2019 年，技术进展方面主要体现在预训练语言模型、跨语言 NLP/无监督机器翻译、知识图谱发展 + 对话技术融合、智能人机交互、平台厂商整合AI产品线。

1 预训练语言模型

随着 2018 年底 Google 提出预训练语言模型 BERT，在多项 NLP 任务上获得更优效果，预训练语言模型的研究与应用被学术界和工业界视为 NLP 领域的一项重大突破，将 NLP 问题的解决方式从以往的为每个任务单独设计复杂的模型逐渐演变成了预训练 + 微调的范式，让众多 NLP 应用能够享受到大语料预训练模型带来的红利，在通用的预训练模型的基础上加入简单的任务层，并结合自己场景的少量语料就可以获得一个不错的领域 NLP 模型。

至此开启了自然语言处理的新篇章。

在 2019 年，各个研究机构和公司在 BERT 的基础上进一步创新，纷纷提出了自己的预训练模型，如：Facebook 发布的 RoBERTa，CMU 发布的 XLNet，Stanford 发布的 ELECTRA，还有百度的 ERNIE 模型，阿里的 structBERT 模型，华为的 NEZHA，哈工大和科大讯飞也都提出了自己的模型，不断刷新 NLP 任务的最好成绩。

这新的工作总结起来，主要来自训练任务设计和训练算法两个方面。

训练任务设计

进行更加精细的语义粒度建模，包括引入更细粒度的建模对象和更加精细的刻画语义关联。

比如 “全词 Mask” 或者 “Knowledge Masking”，技术在 MLM 预训练任务中 Mask 整个词而不是单个 Token，进而提升了任务难度使得 BERT 学到更多语义信息,哈工大和科大讯飞联合发布的中文 BERT 模型以及 NEZHA 模型中得到了应用；再比如引入更多类型的句间关系，从而能够更加准确描述语义关联性，进而提升语义匹配等方面能力，这在阿里和蚂蚁团队的 BERT 模型中得到体现。

利用新的机器学习方法建模

包括 CMU 和 Google 联合发布的 XLNet 使用了 Autoencoder 和 Auto-regressive 两种方案；斯坦福大学提出的 ELECTRA 模型，引入对抗机制来进行更好的 MLM 学习。华盛顿大学和 Facebook 联合发布的 SpanBERT 模型还引入了 Span 预测任务。这些方案应用更学习方法来建模文字之间的联系，从而提升模型效果。

训练算法设计

针对模型的易用性的问题，减少模型参数，或者降低模型的复杂度，包括 Google 发布的 ALBERT 使用了词表 embedding 矩阵的分解与中间层的共享。

提高训练速度的优化

包括混合精度训练，用 FP16 来进行权重，激活函数和梯度等的表示；LAMB 优化器通过一个自适应式的方式为每个参数调整 learning rate，模型训练能够采用很大的 Batch Size; 这些方法极大地提高了训练速度。

阿里的 structBERT 模型通过引入更多模型和任务结构化信息，提升语言表示能力。在Gluebench mark 上多次名列前矛和保持领先位置。通过蒸馏和 CPU 加速，RT 提高了 10x，finetun