doccano在linux系统的安装流程

doccano是一个开源的文本标注工具,支持文本分类、序列标注和序列到序列任务。安装包括pip安装、初始化及启动WebServer和任务队列。文档格式支持Textfile、Textline、JSONL和CoNLL。注意事项包括使用UTF-8编码和JSONL格式的规范。创建新项目后,用户可进行文本标注操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

doccano常用的nlp标注工具,文本分类标注工具,ner标注工具

doccano是documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的语料库进行打标。总共支持三种NLP任务的文本标注,分别是文本分类、序列标注和序列到序列(例如文本翻译)。等任务。

官方文档:https://doccano.github.io/doccano

doccano的安装与初始配置

  1. 这里开一个screen!
  2. 先激活自己的venv环境
  3. 终端里输入:pip install doccano,即可在独立的venv环境中安装doccano。
  4. 然后,在终端里输入
    1. doccano init
    2. doccano createuser --username admin --password pass
    3. 即可完成初始化,并创建一个doccano的超级用户。

启动doccano

  1. 这里再开一个screen!
  2. 首先,在终端中输入doccano webserver --port 8000,启动WebServer
  3. 打开另一个终端,运行下面的代码启动任务队列:doccano task
  4. 此时完成了doccano的启动。

转移了doccano的工具部署位置,如何转移之前的标注记录呢?

doccano建议单独开一个venv,后面转移后就可以直接把该python环境的这个文件夹,参考路径:/venv环境名/lib/python3.x/site-packages/backend,这个文件夹backend拷贝到新的python环境下。

doccano总共支持4种格式的文本

  • Textfile:要求上传的文件为txt格式,并且在打标的时候,一整个txt文件在打标的时候显示为一页内容;【常用】

  • Textline:要求上传的文件为txt格式,并且在打标的时候,该txt文件的一行文字会在打标的时候显示为一页内容;
  • JSONL:是JSON Lines的简写,每行是一个有效的JSON值。【常用】
  • CoNLL:是“中文依存语料库”,是根据句子的依存结构而建立的树库。其中,依存结构描述的是句子中词与词之间直接的句法关系。具体介绍看汉语树库。
注意:
  • doccano官方推荐的文档编码格式为UTF-8。
  • 在使用JSONL格式的时候,文字数据本身要符合JSON格式的规范。
  • 数据集中不要包含空行
  • 小心里面的单双引号问题

运行doccano与创建新的文本打标项目

首先,打开浏览器(最好是Chrome),在地址栏中输入http://0.0.0.0:8000/并回车。
此时,我们会看到这样的界面

 我们可以在红圈处切换语言,在蓝圈处切换成黑色模式(网页变成黑色背景)。
然后我们点击中间的蓝色按钮“快速开始”。
此时,我们会跳转到登陆的界面。这里,我们需要用之前创建的超级用户登陆。

 

完成登陆后,我们会来到“项目”的界面。我们可以点击左上角的“创建”按钮来创建新的项目;也可以点击“删除”按钮来删除已经创建的项目。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贝叶斯巴达

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值