Shortformer 项目使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00604/article/details/141838676

Shortformer 项目使用教程

shortformerCode for the Shortformer model, from the ACL 2021 paper by Ofir Press, Noah A. Smith and Mike Lewis.项目地址:https://gitcode.com/gh_mirrors/sh/shortformer

1. 项目的目录结构及介绍

Shortformer 项目的目录结构如下：

shortformer/
├── data-bin/
│   └── wikitext-103/
├── experiments/
│   ├── run_experiment.py
│   └── config.yaml
├── README.md
├── requirements.txt
└── shortformer/
    ├── __init__.py
    ├── model.py
    ├── trainer.py
    └── utils.py

目录结构介绍

data-bin/：存放数据集的预处理文件，例如 wikitext-103 数据集。
experiments/：包含运行实验的脚本和配置文件。
- run_experiment.py：启动实验的脚本。
- config.yaml：实验配置文件。
README.md：项目说明文档。
requirements.txt：项目依赖的 Python 包列表。
shortformer/：项目的主要代码目录。
- __init__.py：模块初始化文件。
- model.py：定义 Shortformer 模型的文件。
- trainer.py：训练模型的脚本。
- utils.py：辅助工具函数。

2. 项目的启动文件介绍

项目的启动文件是 experiments/run_experiment.py。该文件负责启动训练和评估过程。

启动文件介绍

run_experiment.py：
- 读取配置文件 config.yaml。
- 初始化模型、优化器和训练器。
- 执行训练和评估循环。

3. 项目的配置文件介绍

项目的配置文件是 experiments/config.yaml。该文件包含训练和评估的所有配置参数。

配置文件介绍

config.yaml：
- data_path：数据集路径。
- model_arch：模型架构。
- max_update：最大更新次数。
- max_lr：最大学习率。
- t_mult：学习率调度参数。
- lr_period_updates：学习率周期更新次数。
- lr_scheduler：学习率调度器类型。
- lr_shrink：学习率缩放因子。
- warmup_updates：预热更新次数。
- warmup_init_lr：初始预热学习率。
- min_lr：最小学习率。
- optimizer：优化器类型。
- clip_norm：梯度裁剪阈值。
- criterion：损失函数类型。
- max_tokens：最大 tokens 数量。
- update_freq：更新频率。
- seed：随机种子。
- fp16：是否使用混合精度训练。
- sample_break_mode：样本中断模式。
- skip_invalid_size_inputs_valid_test：是否跳过无效大小的输入。
- ddp_backend：分布式数据并行后端。
- tokens_per_sample：每个样本的 tokens 数量。
- max_tokens_valid：验证时的最大 tokens 数量。
- tokens_from_prev：从上一个样本获取的 tokens 数量。
- curriculum：课程学习参数。
- required_batch_size_multiple：所需批次大小的倍数。
- no_epoch_checkpoints：是否禁用 epoch 检查点。