论文笔记：Ultra-Fine Entity Typing

最新推荐文章于 2022-04-04 20:39:00 发布

xff1994

最新推荐文章于 2022-04-04 20:39:00 发布

阅读量2.9k

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记文章标签： NER Entity Typing

本文链接：https://blog.youkuaiyun.com/xff1994/article/details/90293957

笔记专栏收录该内容

15 篇文章

订阅专栏

文章围绕命名实体识别相关比赛展开，提出entity typing task，可预测实体类别且type有多样性。介绍了众包构建的新数据集，分析了细粒度NER系统获取训练数据的缺陷并给出缓解方法。还阐述了模型，包括上下文表示、提及表示、标签预测和多任务目标等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近被报名了一个比赛，比赛任务是命名实体识别相关的。之前根本就不了解这方面的东西，临时看了几篇论文，似懂非懂。

简介

文章提出了一种entity typing task：给定一个句子和一个entity mention，预测实体的类别（type)。其创新在于type的diversity，可以给出不同粒度上的type。主要利用的方法是基于head word 的距离监督。

Task and Data

在这里插入图片描述
上图是任务的三个例子：左边是句子，其中亮蓝色花括号中是entity mention。右边是相应的type labels。可以看出，右边的标签比已有的一些本体库中定义的标签要多，粒度也更细。
作者众包构建了一个新的数据集，该数据集中type数量非常多，粒度更细。如下图所示：
在这里插入图片描述
作者将这些标签分为三类：

距离监督

细粒度(fine-grained)NER系统通常通过entity linking来获得训练数据：从KBs(knowledge bases)中提取实体类别。这种方法有两方面的缺陷：

KBs的不完备性会影响recall
缺失上下文信息会影响precision

文章通过Wikipedia来缓解recall的影响，提取mention在Wikipedia定义中的相关type（相当于扩大了知识库？）
通过基于head word的距离监督来提供上下文信息以缓解precious的问题。很多时候，mention之前出现的词提供了有用的上下文信息。For example, when describing Titan V as “the newly released graphics card”, the head words and phrases of this mention (“graphics card” and “card”) provide a somewhat noisy, but very easy to gather, context-sensitive type signal.

Model

Context Representation

给定句子 $x_1, x_2, ... , x_n$ ，用预训练的词向量 $w_i$ 来表示单词 $x_i$ ，用向量 $l_i$ 表示该单词是在mention之前、之中还是之后。将 $x_i, l_i]$ 作为双向LSTM的输入，得到每个token的contextualized representation $h_i$ 。最后，通过 MLP-based attention 将上下文表示为 $h_i$ 的加权和：
$a_i = SoftMax_i(v_a\cdot relu(W_ah_i))$
其中， $v_a,W_a$ 是 MLP-based attention 的参数.

Mention Representation

mention m的表示由两部分组成：

a character-based representation produced by a CNN on the entire mention span
a weighted sum of the pre-trained word embeddings in the mention span computed by attention

最后，将context representation 和mentionrepresentation连接起来： $r = [c; m]$

Label Prediction

学习一个type label embedding matrix $Wt∈Rn×dW_t\in R^{n\times d}$ ，其中，n是label的总数量，d是token的表示r的维数。 $Wt∈Rn×dW_t\in R^{n\times d}$ 由三部分组成： $W_{general}, W_{fine}, W_{ultra}$ ，分别代表三类tpye的embedding。每一个label的概率为其与r的内积的sigmoid:
$y=\sigma(W_tr)$
如果 $y_t>0.5$ 则输出 label t。如果不存在大于0.5的 $y_t$ , 则输出最大的 $y_t$ 对应的 t.