Doccano 是一款开源的文本标注工具,专为自然语言处理(NLP)任务设计,支持多种标注类型,如命名实体识别(NER)、文本分类、情感分析、关系抽取等。它由日本京都大学的研究团队开发,以用户友好、轻量化和可扩展性为特点,适合学术研究和小规模工业应用。
详细安装教程
Doccano文本标注平台 是 基于window平台,通过 Anaconda3 中 Anaconda Prompt命令提示符窗口 安装
“开始菜单→所有应用→Anaconda3(64-bit)→Anaconda Prompt命令提示符窗口”


第一步:输入下列代码,虚拟doccano环境,需注意Python版本应为3.9以上
conda create -n doccano python=3.9
得到下图结果说明安装结束,提示激活doccano环境

第二步:输入下列代码,激活doccano环境
conda activate doccano
得到下图结果说明激活成功

第三步:输入下列代码,安装doccano
pip install doccano
如果认为安装慢的同志可以通过镜像安装,效果一样
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple doccano
等待安装完成后即可
第四步:在doccano环境下

输入以下代码,初始化doccano
doccano init
若初始化未成功,大家也不用纠结C:\ProgramData\anaconda3\......的路径,有的人软件可能在D盘、E盘等(也就是下面的情况,和你们安装Anaconda3软件的路径有关)


这个错误是因为 marshmallow 库的版本不兼容导致的。doccano 依赖的 environs 包需要 marshmallow的版本 ≥ 3.13.0 且 <4.0.0,但当前安装的版本可能过低或结构不匹配,导致无法读取 __version_info__ 属性。
在doccano环境下(上边已经说过这个环境下的样子),安装3.20.2版本
pip install --upgrade marshmallow==3.20.2 # 指定兼容版本
检查一下已安装的版本
pip show marshmallow
输出应显示 Version: 3.20.2 或更高(但需低于 4.0.0,因 doccano 要求 <4.0.0),如下图

如果问题仍然存在
可能是其他依赖冲突,重点关注:environs (9.5.0) django (4.2.23)
重新尝试初始化doccano
doccano init
下面输出 正常且正确,表示 doccano init 已成功执行。

第五步:初始化成功之后,创建用户名和密码
doccano createuser --username admin --password pass
成功后如下图所示

第六步:启动web服务
doccano webserver --port 8000
第七步:打开另外一个Anaconda Prompt命令提示符窗口,激活doccano环境,并运行以下命令
doccano task
成功后如下图所示

第八步:用浏览器访问 http://127.0.0.1:800 或 http://localhost:8000
若打开浏览器出现以下提示

说明:NumPy 和 Pandas 的二进制兼容性出现了问题。
解决方式为
pip uninstall numpy pandas -y # 先卸载现有版本
确保 NumPy 是 1.24.4,Pandas 是 1.5.3(或 doccano 官方推荐的版本)
pip install --no-cache-dir numpy==1.24.4 pandas==1.5.3 # 安装兼容版本
再在doccano环境下,重新初始化doccano ,重新创建用户名和密码,重新启动web服务,重新打开另外一个Anaconda Prompt命令提示符窗口,激活doccano环境,运行doccano task,重新用浏览器访问 http://127.0.0.1:8000/ 或 http://localhost:8000

到此,doccano文本标注工具安装成功!!!
如果网页关闭之后,如何重新打开?(其实成功后,直接输入网址几可以了,下面内容不用作为参考)
1.打开Anaconda Prompt命令提示符窗口,输入以下代码,激活doccano环境
conda activate doccano
2.在doccano环境下,启动web服务
doccano webserver --port 8000
得到下图

再打开另外一个Anaconda Prompt命令提示符窗口,激活doccano环境,运行以下命令
doccano task
3.最后,用浏览器访问 http://127.0.0.1:8000/ 或 http://localhost:8000,登录用户名和密码 即可

1万+

被折叠的 条评论
为什么被折叠?



