MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction
1 任务介绍
关系抽取(Relation Extraction, RE)是自然语言处理中的一项基本任务,它旨在发现一个句子中两个实体之间的正确关系。
RE问题通常被视为在大规模标注数据上的有监督分类问题。它的缺点是随着关系实例数量的减少,模型性能急剧下降。
RE问题经常存在数据不足问题,以往的方法是远程监督(distant supervision)将已有的知识库对应到丰富的非结构化文本数据中,从而生成大量的训练数据,以便训练出一个效果不错的关系抽取器。可是数据存在大量噪声的缺点,当两个实体有多种关系或在某个文本中没有关系时,会对关系抽取器产生影响。
1.1 Few-shot RE
少样本关系抽取任务是一种专注于通过学习少量带注释的实例来识别新的实例。上图是一个2路2 shot关系抽取任务,其中2路表示支持实例中一共有两种关系类型,而2 shot表示每种关系均有两个样例作为支撑。对于N-way K-shot问题,Support实例包含N个关系,每个关系有K个样本,查询集包含Q个样本,每个样本属于 N 个关系之一。
支持实例中(a)中的关系类型是山脉,它的头尾实体也是围绕着山脉展开的,第一个样例中的头实体科尔布山是尾实体蒂迪旺沙山脉的一部分,同理第二个样例中头实体圣伊西德罗山也是尾实体半岛山脉系统的一部分。然后,(b)中关系类型是政府首脑,第一个样例{ 其中一个裁判是埃德蒙·巴顿,他成为了澳大利亚的第一任首相。},它的头实体是澳大利亚,尾实体是埃德蒙巴顿;第二个样例{ 基思·伯德特是厄尔·雷·汤布林州长管理下的西弗吉尼亚州的商务部长},头实体为西弗吉尼亚州,尾实体厄尔雷汤布林。
而查询实例{ 参议员帕特里克·莱希和佛蒙特州州长菲尔·斯科特。},它的头尾实体分别是佛蒙特州和菲尔斯科特,实验目的是给出这样一个两路两样本的支持实例训练一个能识别关系选自支持实例的模型。
1.2 Zero-shot Learning
少样本学习的一个极端条件是零样本学习,没有对候选的关系标签提供实例。
- 方