用于关系三元组提取的二维实体对标记方案
1. 引言
端到端的关系三元组提取是自然语言处理中一项重要且具有挑战性的任务。它旨在从非结构化的自然语言文本中联合提取实体对及其关系,对于知识图谱的自动构建至关重要。作为信息提取的一个重要子任务,该任务正吸引着越来越多研究人员的关注。
早期的研究主要采用流水线方法来提取关系三元组,通常分两步完成:命名实体识别和关系分类。虽然这些方法能灵活地获取关系三元组,但不可避免地存在错误传播问题。近年来,出现了一种端到端的关系三元组提取方法,这类方法在一定程度上缓解了错误传播的影响,其中基于序列标记的seq2seq方法成为主流。然而,seq2seq方法将三元组提取任务视为三个不同的模块,且无法有效避免各种重叠模式(如单实体重叠、实体对重叠和主客体重叠)的不利影响。
为了考虑不同子任务之间的交互,同时有效减轻错误传播的影响,本文提出了一种基于双仿射注意力的新型二维实体对标记方案(2DEPT)。该模型可以在统一的框架中联合提取实体和关系,其标记方案是一种seq2table方法,通过对标记对进行分类直接标记实体对。
本文的贡献主要有以下三点:
- 从一个全新的视角处理关系三元组提取任务,在统一的框架中直接从文本中提取关系三元组,不仅能捕捉主客体之间的交互,还能有效避免错误传播的不利影响,同时可以有效解决各种重叠模式的复杂情况。
- 创造性地提出了一种新型的二维实体对标记方案,并引入了基于评分的标记对分类器。
- 在两个公共数据集上进行了广泛的实验,结果表明该模型相比现有方法有显著改进,整体性能优于最先进的基线模型,尤其在各种复杂场景下表现出色。
2. 相关工作
从非
超级会员免费看
订阅专栏 解锁全文
1436

被折叠的 条评论
为什么被折叠?



