把代码放github上面了:链接地址 (记得给个star哦)
数据集介绍
本文采用的是一份中文数据集(数据质量不高,我们主要目的是展现实体关系抽取过程,掌握方法后可以用于高质量数据集上)
每个样例格式如下:
实体1 实体2 实体间关系 句子xxxxxxxxxxxxxxxxx
示例:
郭全宝 郭启儒 合作 、郭全宝)、我是家长(侯宝林、郭启儒)、武松打虎(侯宝林、郭全宝)、戏剧杂谈(侯宝林、郭启儒)、
数据集共11+1种关系 (包括unknow)
unknown 0 父母 1 夫妻 2 师生 3 兄弟姐妹 4 合作 5 情侣 6 祖孙 7 好友 8 亲戚 9 同门 10 上下级 11
我们本质上是把关系抽取问题转换成了多分类问题。
数据分布
1、获取实体关系分布状况:
标签的分布状况 relation_id numbers 0 78642 2 36889 1 28864 5 14030 4 12223 3 8385 6 8221 8 3259