1. 先决条件
- 从源码安装Fairseq
- 安装transformers
脚本在https://github.com/jazzisfuture/FineTuningXLM-R
平行语料 https://www.aliyundrive.com/s/nBX6YRA
pretrained模型 xlmr-base xlmr-large
2. 流程
简化流程
- script/tokenize_para.py
- script/split_file.sh
- script/gen.sh
- 修改config文件内的data和pretraing模型位置
- script/finetuning.sh
2.1 数据集处理
使用huggingface transformers的tokenizer进行数据处理
XLM-R TLM 训练时模型的输入形式为
为了对模型进行继续预训练我们要将平行语料处理为
<s> a</s></s>b</s>的形式
Transformers的tokenizer提供了这将两个句子处理为TLM输入的能力
tokenizer.tokenize(the_data,add_special_tokens=True)
处理语料的core code
def xlm_tok(data,fout):
fout = open(fout, 'w', encoding='utf-8')
tok = AutoTokenizer.from_pretrained("xlm-roberta-base")
for line in tqdm(data):
word_pieces = tok.tokenize(line,add_special_tokens=

本文介绍了如何使用Fairseq库对XLM-R预训练模型进行微调。首先,阐述了安装Fairseq和transformers的先决条件,并提供了相关资源链接。接着,详细解释了微调流程,包括数据集处理(如二值化)、划分验证集与测试集,以及继续预训练的步骤。核心代码和关键配置文件的修改也被提及,为读者提供了一个完整的实践指南。

最低0.47元/天 解锁文章
1056





