关系定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有某种语义的关系,也称为关系抽取。关系抽取的结果通常是一个三元组(实体1,关系,实体2)。例如:句子“北京是中国的首都、政治中心和文化中心”中的表述抽取出的关系表示为(中国,首都,北京),(中国,政治中心,北京),(中国,文化中心,北京)。关系抽取是知识图谱的构建和知识抽取中的一个重要环节,具有重要的理论意义和广阔的应用场景,为多种应用提供重要的支持,主要表现在:
- 大规模知识图谱的自动构建:现有的知识图谱大多都由专家人工编撰,随着互联网的发展,知识呈现爆炸式增长,人工构建知识图谱特别是构建领域知识图谱遇到了很大的困难,存在只是覆盖率低,数据稀疏和更新缓慢等问题。然而利用关系抽取的技术,知识图谱可以根据结构化的抽取结果自动生成。
- 为其他信息获取技术提供支持。
- 自然语言理解领域:关系抽取是篇章理解的关键技术,运用语言处理技术可以对文本的核心内容进行理解,因此,语义关系抽取的研究将成为从简单的自然语言处理技术到真正的自然语言理解应用之间的一个重要纽带。
研究内容
研究的内容主要包括:限定域关系抽取和开放域关系抽取。
- 限定域关系抽取是指系统所抽取的关系类别是预先定义好的,比如知识图谱中定义好的关系类别。在限定域关系抽取中关系的类别一般是人工定义或者从知识图谱中自动获取。由于类别已经定义,所以可以人工或者利用启发式的规则自动标注语料。因而,限定域关系抽取中的主要内容是如何利用有监督或弱监督的方法抽取与定义的实体关系知识。在有监督的方法中主要的研究内容集中在如何挖掘更多能表征语义关系的特征上。在弱监督方法中主要的研究内容集中在如何降低自动生成预料的噪声。
- 开放域关系抽取,顾名思义就是不限定所抽取关系的类别。由于没有事先定义关系的类别,因此开放域关系发现中利用关系指代词来代表关系的类别。因此这个方向的主要研究内容就是如何利用无监督的方法自动的抽取关系三元组。

关系抽取是知识图谱构建的重要环节,它从文本中自动检测实体之间的语义关系。研究内容包括限定域和开放域关系抽取,技术方法涉及基于规则和机器学习的抽取。无监督、有监督和弱监督关系抽取各有优势,其中基于深度学习的有监督方法表现突出。
最低0.47元/天 解锁文章

2182

被折叠的 条评论
为什么被折叠?



