doccano进行序列标注

在NER任务中需要对一句话中的多个实体进行数据标注

比如:李白和杜甫都是非常的棒,白居易也不差,其他的诗人也都挺好。     要标注出李白,杜甫,白居易这三个人名,就不可以用文本分类标注啦。

(看过上一篇的doccano详细使用步骤的家人们,本篇不同之处:2.创建序列标注任务,6.定义指南,7.数据标注,9.导出数据集。 可以点击左侧目录跳转观看)

1.打开两个终端,开启服务和任务队列,登录账号

详细可见第一篇的doccano的安装和使用,

两个终端分别使用conda activate 切换到目标虚拟环境      输入这两行代码       打开浏览器输入(0.0.0.0.8000或者127.0.0.1.8000)    然后登录账号(admin   1234 这是安装doccano第一次使用时自定义的)

# 第一个终端 开启webserver
doccano webserver --port 8000
# 第二个终端 开启任务队列
doccano task

2.创建序列标注任务

登录后点击创建->选择序列标注

输入项目名称,描述,标签->勾选最后一个->点击创建

要说明的时第二个带动图的这个时标签重叠标注,比如(西红市人寿公司中,西红市是一个市名,同时西红市也属于西红市人寿公司这个公司名中)大多数情况不考虑,有需要可以自行勾选

3.导入数据

创建后点击创建的项目->点击数据集->操作->导入数据集

选择导入格式->选择导入文件->点击导入

 4.创建分类标签

点击标签->点击创建标签/导入标签

输入标签名->属于建->选择颜色->点击保存或者保存并添加另一个

5.添加成员

在终端中,切换到doccano的虚拟环境中 添加一个新成员(名字密码自定义)

doccano createuser --username 曹老板 --password 1234

点击左侧的状态栏->点击成员->点击增加->点击用户搜索接口->选择刚刚新建的用户名->选择角色标注员(现在一般没有审核员了)->点击保存

6.定义指南

设置该标注任务中要遵循的规则

点击指南->输入指南内容即可(person,company,address是我创建的标签)

7.数据标注

点击开始标注->用鼠标长按左键并滑动选中要打标签的位置,松开鼠标左键后会显示如图所示的标签选项->标注完之后点击❌变为途中的对号->点击下一个直至全部完成

(在数据标注时也可以使用之前创建的标注员的账号进行登录)

若标记错误要修改可以点击标签->点击叉号

 8.查看统计

这一步也是admin账号进行的 重新进入网址(同上)登录admin 1234

点击统计  就可以看到标注员的工作进程以及每类标签的数量

9.导出数据集

标注工作完成之后点击数据集->点击操作->导出数据集

选择要导出的文件类型(只有一种JSONL)->勾选+点击导出即可

点击导出之后会自动下载,只需要下载之后点击然后解压就可以看到标注之后的数据了(我是用的pycharm打开的JSONL格式的文件)

文件内容:注意“label”键对应的内容:比如第一条:[1,2,person]0,2代表起始和结束索引,person代表标签,(我是随便标的主要看输出格式)

{"id":6,"text":"李白和杜甫都是非常的棒,白居易也不差,其他的诗人也都挺好,长安是个好地方。","label":[[0,2,"person"],[12,15,"person"],[29,31,"address"]],"Comments":[]}
{"id":7,"text":"李白和杜甫都是非常的棒,白居易也不差,其他的诗人也都挺好,长安是个好地方。","label":[[0,3,"person"],[5,9,"company"],[19,25,"address"],[26,30,"address"]],"Comments":[]}
{"id":8,"text":"李白和杜甫都是非常的棒,白居易也不差,其他的诗人也都挺好,长安是个好地方。","label":[[0,5,"person"],[6,11,"person"],[16,20,"company"],[27,36,"address"]],"Comments":[]}
{"id":9,"text":"李白和杜甫都是非常的棒,白居易也不差,其他的诗人也都挺好,长安是个好地方。","label":[[0,6,"person"],[7,17,"company"],[28,34,"address"]],"Comments":[]}
{"id":10,"text":"李白和杜甫都是非常的棒,白居易也不差,其他的诗人也都挺好,长安是个好地方。","label":[[0,3,"person"],[4,8,"company"],[22,25,"address"]],"Comments":[]}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值