利用doccano平台进行实体标注

文章介绍了如何在本地安装和配置doccano,一个开源的标注工具,用于文本标注和实体关系抽取。用户需通过命令行初始化数据库和账户,启动WebServer和任务队列,然后在浏览器中进行登录、创建项目、设置标签和导入数据进行标注操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、基础配置

1.本地安装(请勿在AI Studio内部运行)

AI Studio是一款由百度推出的AI开发平台,AI Studio充分利用了百度在人工智能领域的技术积累和优势资源,提供了丰富的算法模型、数据集、工具和云计算资源,帮助开发者轻松实现各种AI应用场景,如图像识别、语音合成、自然语言处理等。

在命令行运行如下代码:
pip install doccano

2.初始化数据库和账户

在命令行运行如下代码:
doccano init
doccano createuser --username your_admin_name --password your_password

其中your_admin_name是用户自定义的账户名,your_password是用户自定义的账户密码。

3.启动doccano

(1)在一个窗口启动doccano的WebServer,并保持窗口。代码如下:
doccano webserver --port 8000
(2)在另一个窗口启动doccano的任务队列。代码如下:
doccano task

4.运行doccano来标注实体和关系

(1)打开浏览器,在地址栏中输入http://127.0.0.1:8000/后回车即得以下界面。
在这里插入图片描述
(2)登录账户,点击右上方的
LOGIN
,输入上述步骤中设置的用户名和密码登录。
在这里插入图片描述
(3)创建项目,点击左上角的CREATE,跳转至如下界面。

在这里插入图片描述

  • 鼠标选择序列标注(Sequence Labeling)
  • 填写项目名称(Project name)等必要信息
  • 勾选允许实体重叠(Allow overlapping entity)使用关系标注(Use relation labeling)
    在这里插入图片描述

(4)开始标注

  • 设置标签,在Labels一栏点击Actions,Create Label手动设置或者Import Labels从文件导入。

在这里插入图片描述

最上边Span表示实体标签,Relation表示关系标签,需要分别设置。下面以实体标签为例:

在这里插入图片描述

其中Label name表示标签名称,Key表示改标签的标识,Color表示该标签的颜色标注。Preview表示该标签的预展。
现设置了三个实体标签如下:

在这里插入图片描述

  • 导入数据。在Datasets一栏点击Actions、Import Dataset从文件导入文本数据。
  • 根据文件格式(File format)给出的示例,选择适合的格式导入自定义数据文件。
  • 导入成功后即跳转至数据列表。下面以.txt文件为例:

在这里插入图片描述
下面说明导入成功:
在这里插入图片描述

  • 标注数据。点击每条数据最右边的Annotate按钮开始标记。
    在这里插入图片描述

  • 标记页面右侧的 标签类型(Label Types) 开关可在实体标签和关系标签之间切换。
    在这里插入图片描述

  • 实体标注:直接用鼠标选取文本即可标注实体。
  • 关系标注:首先点击待标注的关系标签,接着依次点击相应的头尾实体可完成关系标注。

这里以实体标注为例:

直接用鼠标选取文本即可标注实体。

在这里插入图片描述

标注后显示效果如下:

在这里插入图片描述

全部标注后效果如下:
在这里插入图片描述

  • 导出数据。在Datasets一栏点击Actions、Export Dataset导出已标注的数据。
    在这里插入图片描述

最后就可以得到一个.jsonl文件,里面就包含了标注好的数据。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值