标注工具Brat安装
文章目录
Brat
记录如何使用 Brat 标注工具。Brat 的服务必须置于 UNIX-like 系统,如果是 Windows,建议使用虚拟机或者 WSL。
标注工具Brat安装 (Windows版)
WSL安装
启用 适用于Linux的Windows子系统
首先在 Win11 搜索栏中搜索并打开 启用或关闭Windows功能,勾选 适用于Linux的Windows子系统 项。只有开启这项设置才能正常安装 WSL。(勾选后需要重启电脑)
安装 WSL
在微软应用商店搜索 Linux,可以看到一系列 Linux 发行版,根据自己需要选择适合自己的发行版(如 Ubuntu 18.04.6 LTS),下载。下载完成后启动,等待安装完成,输入账户和密码,便得到一个 Linux 环境。
20版本可能出现(建议使用 Ubuntu 18.04.6 LTS)
可能会出现错误,需要更新wsl
wsl --update
WSL 文件位置
C:\Users<user-name>\AppData\Local\Packages\CanonicalGroupLimited.Ubuntu 20.04onWindows_79rhkp1fndgsc\LocalState\rootfs
win11有个快速检索办法
搜索输入
\wsl$
即可找到文件夹所在
使用国内 Ubuntu 镜像
参考 清华大学开源软件镜像站 - Ubuntu 镜像使用帮助。
Brat 标注平台安装 (官网版本 / Python2)
在 Brat 官网 下载 brat-1.3p1.tar.gz 安装包,解压:
进入解压后的目录进行安装:
cd brat-1.3p1
./install.sh
然后,运行服务:
python2 standalone.py
Brat 标注平台安装 (github/ Python3)
Clone Brat - Github仓库。
进入目录后进行安装:
cd brat
./install.sh
然后,运行服务:
python3 standalone.py
无论python2/3, 都可能需要给予文件权限(建议使用python3)
chmod 777 -R
Brat 标注平台配置
配置文件包括四个文件:
annotation.conf: 定义实体、关系、属性类型
visual.conf: 定义标注结果的显示效果
tools.conf: 定义 Normalization 等工具
kb_shortcuts.conf: 定义快捷键
数据文件放置在 data 目录下。
Normalization 标注配置
根据格式要求准备好 Brat Normalization DB 文件,生成数据库:
python tools/norm_db_init.py <DBNAME>.txt
可以在 work 目录下查看生成的名为 数据库文件。
修改配置文件 tools.conf,在 [normalization] 下添加数据库信息:
DBNAME :HOMEURL, :ENTRYURL
修改配置文件 annotation.conf,在 [entities] 定义实体时指明对应的标准化数据库,如:
ORG :
LOC :
MISC :
安装 SimString
SimString 用于 normalization 标注时关键词匹配,仅测试通 Python2 版本。
参考 SimString 官网。
在 SimString 官网 下载源码包 simstring-1.0.tar.gz,解压。
如系统没有 gcc / g++ / python-dev 包,则需要安装:
$ sudo apt install gcc
$ sudo apt install g++
$ sudo apt install python-dev
进入解压后的目录,在 include/simstring/memory_mapped_file_posix.h 添加一行:
进行编译安装:
$ ./configure
$ make
To install the SimString header files
$ make install
封装成 Python2 模块
$ ./configure
$ cd swig/python
$ ./prepare.sh
$ python setup.py build_ext
$ python setup.py install
然后,可在 Python2 中调用 simstring 包。