开源NLP标注工具技术分享
数据堂 AI-Lab
一、什么是标注平台
自然语言处理标注工具是指通过可视化界面,以清晰、快捷的方式对文本数据进行标注的工具,该工具通常以系统形式展现,包含前端展示、后端系统与数据库三部分组成。
二、自然语言标注平台能做什么
文本分类(对文本类型进行划分,如情感分类、企业类型分类等)
命名实体识别(对文本实体进行标注,如人名、地名、实体名等等)
关系抽取任务(对文本中词关系,如主谓宾等,或因果关系等)
机器翻译任务(通过平行语料,构建翻译对)
其他NLP相关任务
三、标注工具汇总
doccano
Doccano是一个针对标注员的开源文本注释工具。它提供了文本分类、序列标记和序列到序列任务的标注功能。因此,您可以为情感分析、命名实体识别、文本摘要等创建带标签的数据。该标注工具支持多种语言,不会因为语言造成数据难以读取等问题,还能够自动进行线下学习
Doccano平台优势
合作标注:可以进行多人合作,分配标注任务。
语言独立性:你可以对任何语言的文本进行标注。在使用doccano的人群中,已知有英语,中文,日语,阿拉伯语,印度尼西亚语。
自动标注:对一个文本进行了一部分标注后,后台通过学习,能自动对文本进行标注,提高标注效率。
环境依赖:
Python 3.6
Django 2.0.5+
Google