实验室同门有人做事理知识图谱,我也看了下事件抽取的论文,大多实验都是基于ACE2005。这个数据好像需要LDC号才可以下载,好像是付费的。
这里我大概梳理下ACE2005数据集的文件格式。ACE2005数据集目录结构如下,Arabic chinese下的各有bn,nw,wl三个文件夹。

各个文件夹代表不同来源的数据,具体含义如下:

读readme可知,ACE005数据标注过程基本如下
- 首先分别进行1P和DUAL两轮标注,标注结果分别存储于对应语料的fp1和fp2目录下;
- 对以上两轮标注的结果进行裁决,将裁决后的标注结果存储于对应语料的adj目录下;
- 对于English语料,对adj/目录下标注结果再进行一步处理,将结果存储于timex2norm/目录下。
所以在bc,bn等文件夹下会有
- fp1
- fp2
- adj
- timex2norm
四个文件夹。但是Arabic 和 Chin