使用Fairseq微调预训练模型

Chromatica_

已于 2022-04-20 11:20:56 修改

阅读量3.2k

点赞数 1

CC 4.0 BY-SA版权

文章标签：语言模型 nlp

于 2022-04-20 11:19:23 首次发布

本文链接：https://blog.youkuaiyun.com/CheatEngine_jaz/article/details/124292947

本文介绍了如何使用Fairseq库对XLM-R预训练模型进行微调。首先，阐述了安装Fairseq和transformers的先决条件，并提供了相关资源链接。接着，详细解释了微调流程，包括数据集处理（如二值化）、划分验证集与测试集，以及继续预训练的步骤。核心代码和关键配置文件的修改也被提及，为读者提供了一个完整的实践指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用Fairseq微调预训练模型

1. 先决条件
2. 流程

1. 先决条件

从源码安装Fairseq
安装transformers

脚本在https://github.com/jazzisfuture/FineTuningXLM-R
平行语料 https://www.aliyundrive.com/s/nBX6YRA
pretrained模型 xlmr-base xlmr-large

2. 流程

简化流程

script/tokenize_para.py
script/split_file.sh
script/gen.sh
修改config文件内的data和pretraing模型位置
script/finetuning.sh

2.1 数据集处理

使用huggingface transformers的tokenizer进行数据处理

XLM-R TLM 训练时模型的输入形式为

为了对模型进行继续预训练我们要将平行语料处理为
<s> a</s></s>b</s>的形式
Transformers的tokenizer提供了这将两个句子处理为TLM输入的能力

tokenizer.tokenize(the_data,add_special_tokens=True)

处理语料的core code

def xlm_tok(data,fout):
    fout = open(fout, 'w', encoding='utf-8')
    tok = AutoTokenizer.from_pretrained("xlm-roberta-base")
    for line in tqdm(data):
        word_pieces = tok.tokenize(line,add_special_tokens