中文三元组联合标注工具LAnn介绍
摘要
目前,现有的领域三元组数据集并不多,为了更好地支持中文领域三元组数据集的构建,设计并实现了一个中文三元组联合标注的开源工具LAnn(Little Annotator),目前已经迭代多个版本并开源于GitHub上。LAnn标注工具基于浏览器运行,可快速部署和使用,基本不用配置,快速上手;界面简约,标注过程、结果直观;支持各种快捷键和辅助标注模型的加成;标注结果易后处理。可只用于NER标注,也可以适当修改,用于POS标注(实体类型设置为POS)或者分词标注(设置特殊实体类型“词语”)。本文主要介绍了该工具的主要功能和使用方法。
1. 安装部署
基本功能的使用只需要把GitHub项目文件下载下来,用浏览器打开LittleAnn.html文件即可。
导入项目文件夹中的diction.dic词典后,再导入test.txt测试文本,可以实现部分辅助标注。
2. 标注界面
LAnn界面可以视为“上中下右”布局,如上图所示。每个区域的主要功能为:
- 顶部区域
- 当前标注的文件名
- 当前标注进度
- 中心区域
- 标注的主要区域