贾珈:自然语言处理中9个不可不知的研究热点(附视频)

2020 年 5 月 23 日上午,在中国中文信息学会青年工作委员会主办、北京智源人工智能研究院和美团点评承办的“ACL-IJCAI-SIGIR 顶级会议论文报告会(AIS 2020)”中,智源青年科学家、清华大学计算机科学技术系博士生导师、长聘副教授贾珈作了题为《NLP in IJCAI 2020》的报告。

 

贾珈,智源青年科学家,清华大学计算机科学技术系担任博士生导师、长聘副教授,中国计算机学会语音对话和听觉专委会秘书长,中国中文信息学会语音专业委员会秘书长,主要负责学会青年工作委员会学生委员工作,主要研究方向为情感计算。

IJCAI是人工智能领域的顶级国际学术会议,在演讲中,贾珈基于IJCAI 2020的录用论文内容,按算法层面和任务层面两个维度,从无监督预训练、跨语言学习、元学习和少样本学习、迁移学习、误差、知识融合、问答、自然语言生成、多模态这九个方面介绍了关于自然语言处理的主要成果和研究趋势。

 

下面是贾珈演讲的精彩要点介绍。

 整理:智源社区 罗丽

一、IJCAI 2020词云图中的NLP热点

 

IJCAI 2020中有80余篇论文和自然语言处理相关,通过对关键词做词云分析,我们可以发现,深度学习在自然语言处理当中仍然占据主导型地位。

       图1:历年IJCAI NLP论文数量及关键词“词云”分析

除了深度学习之外,词云当中还包含2020年的其他研究热点,主要总结为以下四个方面:

(1)生成类的任务,如对话生成、段落生成。

(2)网络结构设计,在网络结构设计当中研究者们非常喜欢用Attention。

(3)实体关系抽取和实体识别,在今年的IJCAI中,实体关系抽取和实体识别被广泛进行相关的研究。

(4)与神经网络结合设计模型框架,越来越多的研究者注重利用知识和神经网络结合的方式来设计自己的模型框架。

接下来,贾珈主要从两个维度(算法层面,任务层面)、九个方面对IJCAI 2020中NLP相关研究进行了总结。

       图2:IJCAI NLP研究中的9个highlights

二、算法层面对NLP的研究总结

1.无监督预训练

预训练语言模型一直是NLP领域的研究热点,它极大地提升了各大NLP任务的性能。

        图3:有关BERT的通用语言模型

图3是在BERT出现后,有关BERT的一系列通用语言模型。在IJCAI 2020中,也有相关工作聚焦到了语言模型的预训练当中,这些预训练的语言模型中,既包含了通用的预训练模型,如EViLBERT模型[1]、AdaBERT模型[2],也包含了某一个特定任务上的预训练模型,如BERT-INT模型[3]、BERT-PLI模型[4]和FinBERT模型[5]。

EViLBERT模型是通过多模态预训练的语言模型淘汰Image caption(图像描述),取得了较好的效果;AdaBERT模型是利用网络结构搜索进行参数压缩,解决BERT耗时长、参数量大的问题;BERT-INT解决知识图谱的对齐问题;BERT-PLI解决的是法律条文检索的问题;FinBERT解决的是金融文本挖掘的问题。

BERT的出现,已经极大地推动了NLP领域的发展,贾珈推测,NLP围绕BERT的相关研究在未来几年主要体现在这两个方面:

   (1)如何加快无监督的语言模型训练过程;

   (2)如何通过减少时间开销,寻找更好的网络结构。

2.跨语言学习

近年来,NLP领域对跨语言学习的研究愈发关注,有着很大的现实需求。在 IJCAI 2020中也涉及到如何解决跨语言的问题,它的意义在于一方面可以促进文化交流,另一方面,也更重要的是,它可以极大地促进NLP技术在大量非英语场景下的部署,包括Word-embedding事例、Unsupervised模型、机器翻译等都是相应的热点。

        图4:跨语言学习的示例

   

图4为跨语言学习的一个示例,通过学习跨语言的Word embedding,跨语言中有相似意义的词包含了相似的向量。

 

在无监督的跨语言模型研究中,跨语言模型的预训练是大家关注的一个热点。在IJCAI2020中,UniTrans[6] 研究了无监督的跨语言实体识别方法,也有研究者探究了跨语言模型中无监督Domain adaptation问题[7]。

 

相比于无监督方法,在跨语言的有关研究中,有监督方法的效果更好,平行语料库在机器翻译等问题上仍至关重要。在IJCAI 2020有监督的跨语言的研究中,有文章探究了用平行语料库生成跨语言复述的问题[8],也就是Bilingual Generation,也有研究用跨语言标注尝试解决语义消息的问题[9]。

 

此外,机器翻译也是跨语言研究的一个重要方向,在IJCAI2020中,共有七篇机器翻译的相关论文。

3.元学习和少样本学习

近年来,Meta-learning(元学习)和Few shot learning(少样本学习)逐渐成为学术界的研究热点,在IJCAI 2020中,主要探究了两种方式在NLP领域的应用,其中Few shot learning在各种分类任务中应用较为广泛,通过Few shot learning,神经网络可以用很少的样本就泛化到新的类别上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值