标注语料的时候可以采用brat语料标注工具
具体过程参见 http://wetest.qq.com/lab/view/31.html
brat具体相关配置步骤:http://brat.nlplab.org/configuration.html
配置细节
在配置entity时,还可以实现entity的层次结构。通过在每行开始处插入TAB字符指定这一层次结构。
(注:这里不可以用空格来代替TAB,有的编辑器如vim会自动把TAB转换成4个空格https://blog.youkuaiyun.com/tcx1992/article/details/80576592)
annotation.conf中
4 [entities]
5
6 OTH
7 LOC
8 LOC,continent
9 LOC,nation
10 LOC,province
11 LOC,scenic
12 name
13 name,PER
14 name,animal
15 name,plant
16 ORG
17 time
18 time,DAY
19 time,TPT
20 time,TPD
21 TIL
22 TIL,AV
23 TIL,publication
24 TIL,commodity
25 NUM
26 NUM,PCT
27 NUM,MNY
28 NUM,amount
左边visual.conf,右边annotation.conf
标注示例:
ps:这里的父entity也是可以选中的,在父entity前面加上”!”可以令父entity不可选,如!LOC
标注结果
标注结果文件(ann后缀)
1 T2 OTH 3 15 一吨碳挑战的目的是什么?
2 T1 NUM,MNY 37 75 加国政府由自由党主政的2003年至2006年间,通过多少经费来挹注为此计划?
3 T3 OTH 92 114 廖秋成跟刘业经教授和刘棠瑞教授学了什么学科?