Fairseq项目中的神经机器翻译实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00592/article/details/148360500

Fairseq项目中的神经机器翻译实践指南

fairseq facebookresearch/fairseq: fairseq 是Facebook AI研究团队开发的一个高性能序列到序列（Seq2Seq）学习框架，主要用于机器翻译、文本生成以及其他自然语言处理任务的研究与开发。项目地址: https://gitcode.com/gh_mirrors/fa/fairseq

前言

Fairseq是一个基于PyTorch的序列建模工具包，特别擅长处理机器翻译任务。本文将详细介绍如何使用Fairseq进行神经机器翻译(NMT)，包括预训练模型的使用和新模型的训练方法。

预训练模型概览

Fairseq提供了多种基于不同架构的预训练翻译模型，覆盖了多个语言对：

卷积神经网络(CNN)模型

conv.wmt14.en-fr: 英语-法语翻译模型，基于WMT14数据集
conv.wmt14.en-de: 英语-德语翻译模型，基于WMT14数据集
conv.wmt17.en-de: 英语-德语翻译模型，基于WMT17数据集

Transformer模型

transformer.wmt14.en-fr: 英语-法语翻译模型
transformer.wmt16.en-de: 英语-德语翻译模型
transformer.wmt18.en-de: WMT18比赛冠军模型
transformer.wmt19系列: WMT19比赛冠军模型，支持多种语言对

预训练模型使用指南

环境准备

在使用预训练模型前，需要安装必要的Python依赖：

pip install fastBPE sacremoses subword_nmt

通过PyTorch Hub使用

import torch

# 加载WMT16英语-德语Transformer模型
en2de = torch.hub.load('pytorch/fairseq', 'transformer.wmt16.en-de',
                      tokenizer='moses', bpe='subword_nmt')
en2de.eval()  # 设置为评估模式
en2de.cuda()  # 使用GPU加速

# 单句翻译
print(en2de.translate('Hello world!'))  # 输出: Hallo Welt!

# 批量翻译
print(en2de.translate(['Hello world!', 'How are you?']))

自定义模型加载

from fairseq.models.transformer import TransformerModel

# 加载自定义训练的模型
zh2en = TransformerModel.from_pretrained(
    '/path/to/checkpoints',
    checkpoint_file='checkpoint_best.pt',
    data_name_or_path='data-bin/wmt17_zh_en_full',
    bpe='subword_nmt',
    bpe_codes='data-bin/wmt17_zh_en_full/zh.code'
)
print(zh2en.translate('你好 世界'))  # 输出: Hello World

模型训练实战

IWSLT'14德语-英语Transformer模型训练

数据准备

# 下载并预处理数据
cd examples/translation/
bash prepare-iwslt14.sh
cd ../..

# 数据二值化处理
TEXT=examples/translation/iwslt14.tokenized.de-en
fairseq-preprocess --source-lang de --target-lang en \
    --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test \
    --destdir data-bin/iwslt14.tokenized.de-en \
    --workers 20

模型训练

CUDA_VISIBLE_DEVICES=0 fairseq-train \
    data-bin/iwslt14.tokenized.de-en \
    --arch transformer_iwslt_de_en --share-decoder-input-output-embed \
    --optimizer adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 \
    --lr 5e-4 --lr-scheduler inverse_sqrt --warmup-updates 4000 \
    --dropout 0.3 --weight-decay 0.0001 \
    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \
    --max-tokens 4096 \
    --eval-bleu \
    --eval-bleu-args '{"beam": 5, "max_len_a": 1.2, "max_len_b": 10}' \
    --eval-bleu-detok moses \
    --eval-bleu-remove-bpe \
    --eval-bleu-print-samples \
    --best-checkpoint-metric bleu --maximize-best-checkpoint-metric

模型评估

fairseq-generate data-bin/iwslt14.tokenized.de-en \
    --path checkpoints/checkpoint_best.pt \
    --batch-size 128 --beam 5 --remove-bpe

多语言翻译模型

Fairseq支持训练多语言翻译模型。以下示例展示了如何训练一个德语-英语和法语-英语的多语言Transformer模型。

数据准备

# 安装必要工具
pip install sacrebleu sentencepiece

# 下载并预处理数据
cd examples/translation/
bash prepare-iwslt17-multilingual.sh
cd ../..

模型训练

mkdir -p checkpoints/multilingual_transformer
CUDA_VISIBLE_DEVICES=0 fairseq-train data-bin/iwslt17.de_fr.en.bpe16k/ \
    --max-epoch 50 \
    --ddp-backend=legacy_ddp \
    --task multilingual_translation --lang-pairs de-en,fr-en \
    --arch multilingual_transformer_iwslt_de_en \
    --share-decoders --share-decoder-input-output-embed \
    --optimizer adam --adam-betas '(0.9, 0.98)' \
    --lr 0.0005 --lr-scheduler inverse_sqrt \
    --warmup-updates 4000 --warmup-init-lr '1e-07' \
    --label-smoothing 0.1 --criterion label_smoothed_cross_entropy \
    --dropout 0.3 --weight-decay 0.0001 \
    --save-dir checkpoints/multilingual_transformer \
    --max-tokens 4000 \
    --update-freq 8