标题
Unified Named Entity Recognition as Word-Word Relation Classification
统一命名实体识别映射为词与词的关系分类
作者
Jingye Li,1,∗ Hao Fei,1,* Jiang Liu,1 Shengqiong Wu,1, Meishan Zhang,2 Chong Teng,1 Donghong Ji,1 Fei Li1.
1 武汉大学网络科学与工程学院教育部航空航天信息安全与可信计算重点实验室
2 哈尔滨工业大学(深圳)计算与智能研究所
Abstract
到目前为止,命名实体识别(NER)涉及三种主要类型,包括平面的(flat)、重叠的(overlapped)(也即嵌套)和不连续的(discontinuous)NER,它们大多是单独研究的。最近,人们对统一NER越来越感兴趣,即用一个模型同时处理上述三种工作。目前表现最好的方法主要包括基于跨度的(span-based)模型和序列到序列的(sequence to sequence)模型,然而不幸的是,前者只关注边界识别,后者可能存在暴露偏差。在本文的工作中,我们提出了一种新的替代方案,将统一NER建模为词-词关系分类,即W2NER。该架构使用相邻词(Next-Neighboring-Word,NNW)和词尾-词头-* (Tail-Head-Word-*,THW-*)关系,对实体词之间的相邻关系进行有效建模,解决了统一NER的核心瓶颈问题。基于W2NER方案,我们开发了一个神经网络框架,在该网络中统一NER被建模为词对的二维网格。然后,我们提出了多粒度2D卷积,以更好地细化网格表示。最后,使用协预测器来充分推理词与词的关系。我们在14个广泛用于flat、overlapped和discontinuous的基准数据集(8个英文数据集和6个中文数据集)上进行了大量的实验,我们的模型超过了目前所有表现最好的baseline,推动了统一NER的最先进性能。
1 Introduction 引言
命名实体识别(NER)长期以来一直是自然语言处理(NLP)领域的一项基本任务,因为它具有各种各样的基于知识的应用,例如关系提取(Wei et al 2020;Li et al 2021b)、实体链接(Le and Titov 2018;Hou et al2020)等。对NER的研究始于从flat NER(Lample et al . 2016;Strubell et al . 2017),后来演变为overlapped NER (Yu et al . 2020;Shen et al . 2021),再到最近的不连续NER (Dai et al . 2020;Li et al . 2021a)。
具体来说,flat NER只是从文本中检测涉及范围及其语义类别,而在overlapped NER和不连续NER中问题要复杂的多:overlapped实体包含相同的标记,而不连续实体包含不相邻的跨度,如图1所示。

以前的多类型NER方法大致可以分为四大类:1)序列标记,2)基于超图的方法,3)序列到序列的方法和4)基于跨度的方法。 大多数初步工作将NER形式化为序列标记问题(Lample等人2016;Zheng等人2019;Tang等人2018;Strakova´等人2019),为每一个标记分配一个标签。然而,很难为所有NER子任务设计一个统一的标记方案。然后,基于超图的模型被提出(Lu和Roth 2015;Wang和Lu 2018;Katiyar和Cardie 2018),用来表示所有实体跨度,然而,它在推理过程中同时存在虚假结构和结构模糊问题。最近,Yan等人(2021)提出了一种序列到序列(Seq2Seq)模型来直接生成各种实体,不幸的是,该模型可能存在解码效率问题和某些Seq2Seq架构的常见缺陷,例如暴露偏差。基于跨度的方法(Luan等人2019;Li等人2021a)是统一NER的另一种最先进的方法,该方法列举所有可能的跨度并进行跨度级分类。然而,基于跨度的模型可能受到最大跨度长度的影响,并且由于其枚举性而导致模型相当复杂。因此,设计一个有效的统一NER系统仍然具有挑战性。
现有的大多数工作主要关注如何准确识别实体边界,也即NER的核心问题,尤其是对flat NER来说(Strakova et al´2019;Fei等人2021)。然而,在仔细反思这三种NER的共同特征后,我们发现统一NER的瓶颈更多地在于实体词之间相邻关系的建模。这种邻接相关性本质上描述了部分文本片段之间的语义连接,这对overlapped NER和不连续的NER起着尤其关键的作用。如图1(a)所示,由于其组成词都是自然相邻的,因此很容易检测到“aching in legs”这一扁平提及。但是,要找出“aching in shoulders”这一不连续实体,就必须有效地捕捉“aching in”和“shoulders”相邻片段之间的语义关系。
在上述观察的基础上,我们在本文中研究了一种统一NER的替代形式,即具有新颖的词-词关系分类架构的W2NER。我们的方法对实体边界识别和实体词之间的相邻关系进行了有效建模,从而解决了统一NER问题。具体而言,W2NER对两种类型的关系进行预测,包括邻接词(NNW)和词尾-词头-*(THW-*),如图1(b)所示。NNW关系用来进行实体词识别,指示两个自变量单词在同一实体中是否相邻(例如,aching→in),而THW-*关系处理实体边界和类型检测,揭示两个自变量单词是否分别是“*”实体的尾部和头部边界(例如,legs→aching,Symptom)。
在W2NER方案的基础上,我们进一步提出了统一NER的神经网络框架(见图3)。首先,BERT(Devlin等人2019)和BiLSTM(Lample等人2016)用于提供化单词的上下文表示,在此基础上,我们构建了单词对的二维(2D)网格。然后,我们设计了多粒度的2D卷积来细化词对表示,有效地捕捉了近词对和远词对之间的相互作用。最终由co-predictor对单词-单词关系进行推理,并产生所有可能的实体提及。该协预测器联合使用双仿射分类器和多层感知机分类器以获得互补优势。
我们在14个数据集上进行了广泛的实验,包括2个英文和4个中文的flat NER数据集,3个英文和2个中文的overlapped NER数据集,以及3个英文的不连续NER数据集。与flat NER的12个baselines、overlapped NER的7个baselines和不连续NER的7个bas