SciREX 项目使用教程
1. 项目的目录结构及介绍
SciREX 项目的目录结构如下:
SciREX/
├── docs/
├── dygiepp/
├── notebooks/
├── scirex/
├── scirex_dataset/
├── scirex_utilities/
├── test/
│ └── fixtures/
├── .gitignore
├── Annotation Guidelines.pdf
├── LICENSE
├── README.md
├── Statistics.md
└── requirements.txt
目录结构介绍:
- docs/: 包含项目的文档文件。
- dygiepp/: 包含与 DyGIE++ 相关的代码和配置。
- notebooks/: 包含 Jupyter Notebook 文件,用于数据分析和实验。
- scirex/: 包含 SciREX 模型的核心代码。
- scirex_dataset/: 包含 SciREX 数据集的文件。
- scirex_utilities/: 包含 SciREX 项目的实用工具代码。
- test/fixtures/: 包含测试用的固定数据。
- .gitignore: Git 忽略文件配置。
- Annotation Guidelines.pdf: 标注指南文档。
- LICENSE: 项目许可证文件。
- README.md: 项目介绍和使用说明。
- Statistics.md: 项目统计信息。
- requirements.txt: 项目依赖的 Python 包列表。
2. 项目的启动文件介绍
SciREX 项目的启动文件主要位于 scirex/commands/
目录下。以下是主要的启动脚本:
- train_scirex_model.sh: 用于训练 SciREX 模型的脚本。
- train_pairwise_coreference.sh: 用于训练次要的共指消解模型的脚本。
- predict_scirex_model.sh: 用于生成预测结果的脚本。
使用方法:
-
训练 SciREX 模型:
CUDA_DEVICE=<cuda-device-num> bash scirex/commands/train_scirex_model.sh main
-
训练共指消解模型:
CUDA_DEVICE=<cuda-device-num> bash scirex/commands/train_pairwise_coreference.sh main
-
生成预测结果:
scirex_archive=outputs/pwc_outputs/experiment_scirex_full/main \ scirex_coreference_archive=outputs/pwc_outputs/experiment_coreference/main \ cuda_device=<cuda-device-num> \ bash scirex/commands/predict_scirex_model.sh
3. 项目的配置文件介绍
SciREX 项目的主要配置文件是 requirements.txt
,它列出了项目所需的 Python 包及其版本。
requirements.txt
# 项目依赖的 Python 包列表
numpy==1.19.5
torch==1.7.1
transformers==4.1.1
...
安装依赖
要安装项目所需的依赖,请在项目根目录下运行以下命令:
pip install -r requirements.txt
其他配置
- BERT_BASE_FOLDER: 需要设置
BERT_BASE_FOLDER
环境变量,指向 SciBERT 模型的路径。该路径应包含vocab.txt
和weights.tar.gz
文件。
export BERT_BASE_FOLDER=<path-to-scibert>
- PYTHONPATH: 需要将项目的根目录添加到
PYTHONPATH
环境变量中,以便 Python 能够正确找到模块。
export PYTHONPATH=$PYTHONPATH:/path/to/SciREX
通过以上步骤,您可以成功配置和启动 SciREX 项目。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考