一、Introduction
-
命名实体识别(NER)是自然语言处理中一项研究非常广泛的任务。传统的NER研究只处理平面实体,而忽略了嵌套实体。例如:北京大学,北京大学不仅是一个组织,同时北京也是一个地点。
-
嵌套实体研究现状:
( 1 )序列方法:这种预测边界,但在没有动态调整的情况下,边界信息没有得到充分利用。
( 2 )基于 s p a n span span的方法:将实体识别的问题转化为了 s p a n span span分类问题。假设一个句子有四个词 s 1 , s 2 , s 3 , s 4 s_1,s_2,s_3,s_4 s1,s2,s3,s4,枚举所有 s p a n span span的可能性,然后逐一判断每个 s p a n span span是不是实体。这种方法由于大量低质量的 s p a n span span导致较高的计算成本。
s e n t e n c e s = { s 1 , s 2 , s 3 , s 4 } sentences=\{s_1,s_2,s_3,s_4\} sentences={ s1,s2,s3,s4}
s 1 , s 2 , s 3 , s 4 , s 1 s 2 , s 2 s 3 , s 3 s 4 , s 1 s 2 s 3 , s 2 s 3 s 4 , s 1 s 2 s 3 s 4 s_1,s_2,s_3,s_4,s_1s_2,s_2s_3,s_3s_4,s_1s_2s_3,s_2s_3s_4,s_1s_2s_3s_4 s1,s2,s3,s4,s1s2,s2s3,s3s4,s1s2s3,s2s3s4,s1s2s3s4
二、Method
- 在第一阶段,设计 S p a n P r o p o s a l Span Proposal SpanProposal模块,该模块包含两个组件:过滤器和回归器。过滤器作用是过滤掉低质量的 s p a n s spans spans,保留高质量的 s p a n s spans spans( S p a n P r o p o s a l Span Proposal SpanProposal)。回归器通过调整跨度建议的边界来定位实体,以提高 S p a n P r o p o s a l Span Proposal SpanProposal的质量。
- 在第二阶段,我们使用实体分类器来标记实体类别。
2.1 Token Representation
一个句子n个词,第i个词向量是通过将它的词向量 x i w x^w_i xiw、上下文词向量 x i l m x^{lm}_i xilm、词性向量 x p o s i x^{pos}i xposi、字符级向量 x i c h a r x^{char}_i xichar进行拼接,然后将其输入 B i L S T M BiLSTM BiLSTM获得最终词向量 h i ∈ R d h_i\in{\mathbb{R}}^d hi∈Rd。
2.2 Seed Span Generation
-
s e e d seed seed s p a n s spans spans集合
一个句子长度为 L L L,枚举所有的起始位置和结束位置生成 s e e d seed seed s p a n s spans spans, s e e d seed seed s p a n s spans spans集合表示为 β = { b 0 , . . . , b K } \beta=\{b_0,...,b_K\} β={ b0,...,bK},其中 b i = ( s t i , e d i ) b_i=(st_i,ed_i) bi=(st