python知识图谱关系抽取算法_知识图谱系列——关系抽取（1）

最新推荐文章于 2025-03-15 14:37:17 发布

· 1.6k 阅读

文章标签：

该博客介绍了ACL2016上的一篇论文，该论文提出了一种使用注意力机制的CNN网络方法来改进关系抽取。针对远程监督场景中的噪声问题，作者通过在关系语句层面引入注意力机制，提升了模型的性能。网络结构采用了CNN进行句子编码，并通过计算与关系向量的相似度来分配句子权重。实验结果显示，该模型表现优于其他方法，达到了当时的最优水平。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

本文接着知识图谱系列––命名实体识别方法[1],继续介绍关系抽取方法。知识图谱在构建的过程中，往往伴随着边试用，边拓展，边优化的过程，其中图谱拓展和优化就必须用到关系抽取方法来进一步抽取补充实体关系。本文介绍一篇ACL2016的论文方法：基于attention的CNN网络进行关系抽取。

1 文章及算法介绍[2]

标题：Neural Relation Extraction with Selective Attention over Instances ACL2016

作者：Yankai Lin , Shiqi Shen , Zhiyuan Liu , Huanbo Luan , Maosong Sun

（1）动机及思路

针对以往distant supervision场景下的关系抽取中所存在的误标签传播所引起的训练数据噪声过大的问题，作者提出了一种在关系语句层面上引入Attention机制以提升模型效果。

（2）网络设计及方法

文章是2016年的，整体网络结构如图1现在来看没有太多特殊性，采用的是CNN模型来表征句子，主要通过图1中的α 句子级(sentence-level )的attention操作来凸显实体语义表征。图中

equation?tex=m_%7B1%7D%2Cm_%7B2%7D%2Cm_%7B3%7D 等表示的是两个实体对对应的训练句子集合，

equation?tex=r_%7Bi%7D 表示的是句子

equation?tex=m_%7Bi%7D 经过 CNN 编码池化后的向量，

equation?tex=%5Calpha+_%7Bi%7D 表示的是训练句子的权重。总体框架流程： CNN 编码后得到句子向量

equation?tex=r_%7Bi%7D ，再通过计算

equation?tex=r_%7Bi%7D 与关系

equation?tex=r 向量的相似度来赋予

equation?tex=r_%7Bi%7D 在整个句子集合中的权重。

文本编码及表示过程如图2所示，值得一提的是在当时作者就已经加入了position embedding，并且也可先行使用word2vec进行字符/词表示提升embedding表征效果。

试验结果

文中所给试验结果显示模型效果显著优于其他方法，文中所述是达到了当时的SOTA水平。

参考文献debuluoyi：知识图谱系列––命名实体识别方法（2）zhuanlan.zhihu.com

[2] Lin, Y., Shen, S., Liu, Z., Luan, H., & Sun, M. (2016, August). Neural relation extraction with selective attention over instances. InProceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)(pp. 2124-2133).

[3] Wu, S., & He, Y. (2019). Enriching Pre-trained Language Model with Entity Information for Relation Classification.arXiv preprint arXiv:1905.08284.github.com/debuluoyigithub.com卞书青：Neural Relation Extraction with Selective Attention over Instances阅读笔记zhuanlan.zhihu.com