论文地址:https://arxiv.org/pdf/2004.11795.pdf
github地址:https://github.com/LeeSureman/Flat-Lattice-Transformer
再给大家推一个作者本人的讲解视频 讲的特别透彻【AI TIME PhD】结合词典的中文命名实体识别-李孝男_哔哩哔哩_bilibili
还是先把论文过一遍吧 这篇论文里面可能会涉及到Lattice LSTM的内容 这篇论文后续也会仔细研究的 ok
Abstract
工作中提出,命名实体识别是一个重要且实用的任务。近年来,将词典信息加入模型被证明对中文命名实体识别任务很有效。但是结合词典的方法通常会使输入变为一个动态的结构,模型需要在运行时态改变结构来表征输入,导致无法有效利用GPU的并行计算,运行速度缓慢。因此提出FLAT模型,在Transformer的基础上,采用一个特殊的位置编码表征输入结构,而不需要在运行时改变结构来表征输入。实验结果显示我们的模型在实体识别的正确率以及运行速度上均有良好的表现。
Introduction
命名实体识别(NER)在许多下游自然语言处理(NLP)任务中发挥着不可或缺的作用
与英语相比中文NER更为困难,因为它通常涉及词的分割。最近,格子结构被证明在利用单词信息和避免单词传播错误方面有很大的好处。我们可以将一个句子与一个词库相匹配,以获得其中的潜在词,然后得到一个如图1(a)所示的格子。该格子是一个有向无环图,其中每个节点是一个字符或一个潜词。网格包括句子中的字符和潜在词的序列。它们不按顺序排列,单词的第一个字符和最后一个字符决定其位置。网格中的一些词可能对NER很重要。例如,在图1(a)中,"人和药店(Renhe Pharmacy) "可以被用来区分地理上的人和药店。用来区分地理实体的 "重庆(Chongqing) "和组织实体 "重庆人(Chongqing People)"。
有两条线的方法来利用格子。(Lattice)
(1)一条线是设计一个与格子输入兼容的模型,如格子LSTM(Zhang and Yang, 2018)和LR-CNN(Gui et al., 2019a)。
在LatticeLSTM中,一个额外的单词单元被用来编码潜在的单词,并且注意力机制被用来融合每个位置的变数节点在每个位置上,如图1(b)。
LR-CNN使用CNN对不同窗口大小的潜在词进行编码。然而,RNN和CNN很难对长距离的依赖关系进行建模 (Vaswani等人,2017),这在NER中可能是有用的,比如核心推理(Stanislawek等人,2019)。
由于动态网格结构,这些方法不能充分利用GPU的并行计算。
(2)另一条线是将格子转换成图,并使用图神经网络(GNN)进行编码,如基于词典的图网络(LGN)(Gui等人,2019b)和协作图网络(CGN)(Sui等人,2019)。虽然顺序结构对NER仍然很重要,而图是一般的对应物,但它们的差距是不可忽视的。
这些方法需要使用LSTM作为底层编码器来承载顺序性的归纳偏见。
这使得该模型变得复杂。
在本文中,我们提出了FLAT。Flat LAttice Transformer用于中文NER。Transformer(Vaswani等人,2017)采用全连接的自我关注来模拟序列中的长距离依赖关系。
为了保持位置信息,Transformer为序列中的每个标记引入