HPSG-Neural-Parser 项目使用教程
1. 项目目录结构及介绍
HPSG-Neural-Parser/
├── EVALB/
│ └── ...
├── data/
│ └── ...
├── models/
│ └── ...
├── src_division/
│ └── ...
├── src_joint/
│ └── ...
├── .DS_Store
├── LICENSE
├── README.md
├── parse.sh
├── run_bert.sh
├── run_single.sh
├── run_xlnet.sh
└── test.sh
目录结构介绍
- EVALB/: 包含用于评估解析器的 EVALB 工具。
- data/: 存放数据文件,包括训练、开发和测试数据。
- models/: 存放预训练模型文件。
- src_division/: 包含用于分割树表示的源代码。
- src_joint/: 包含用于联合树表示的源代码。
- .DS_Store: macOS 系统文件,忽略即可。
- LICENSE: 项目许可证文件。
- README.md: 项目说明文件。
- parse.sh: 用于解析句子的脚本。
- run_bert.sh: 用于使用 BERT 训练模型的脚本。
- run_single.sh: 用于训练单系统模型的脚本。
- run_xlnet.sh: 用于使用 XLNet 训练模型的脚本。
- test.sh: 用于评估模型的脚本。
2. 项目启动文件介绍
2.1 parse.sh
该脚本用于解析句子。使用前需要设置输入文件和预训练模型路径。
sh parse.sh
2.2 run_bert.sh
该脚本用于使用 BERT 训练模型。
sh run_bert.sh
2.3 run_single.sh
该脚本用于训练单系统模型。
sh run_single.sh
2.4 run_xlnet.sh
该脚本用于使用 XLNet 训练模型。
sh run_xlnet.sh
2.5 test.sh
该脚本用于评估模型。使用前需要设置模型路径和测试数据路径。
sh test.sh
3. 项目的配置文件介绍
3.1 README.md
README.md
文件包含了项目的详细说明,包括项目的基本信息、依赖项、训练和评估指令等。
3.2 LICENSE
LICENSE
文件描述了项目的开源许可证,本项目使用 MIT 许可证。
3.3 配置参数
在训练和评估过程中,可以通过命令行参数进行配置。以下是一些常用的配置参数:
--model-path-base
: 模型保存路径。--evalb-dir
: EVALB 工具路径。--train-ptb-path
: 训练数据路径。--dev-ptb-path
: 开发数据路径。--dep-train-ptb-path
: 依赖训练数据路径。--dep-dev-ptb-path
: 依赖开发数据路径。--batch-size
: 批处理大小。--checks-per-epoch
: 每个 epoch 的检查次数。--subbatch-max-tokens
: 训练时每个子批处理的最大词数。--eval-batch-size
: 评估时的批处理大小。--numpy-seed
: NumPy 随机种子。--use-words
: 是否使用词嵌入。--use-tags
: 是否使用预测的词性标签。--use-chars-lstm
: 是否使用 CharLSTM 词表示。--use-elmo
: 是否使用 ELMo 词表示。--use-bert
: 是否使用 BERT 词表示。--use-xlnet
: 是否使用 XLNet 词表示。--pad-left
: 使用 XLNet 时是否左填充。--bert-model
: 使用的 BERT 模型。--no-bert-do-lower-case
: 是否保留 BERT 的大小写信息。--xlnet-model
: 使用的 XLNet 模型。--no-xlnet-do-lower-case
: 是否保留 XLNet 的大小写信息。--const-lada
: Lambda 权重。--model-name
: 模型名称。--embedding-path
: 预训练嵌入路径。--embedding-type
: 预训练嵌入类型。--dataset
: 数据集类型。
通过这些参数,可以灵活配置训练和评估过程。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考