Fairseq联合学习对齐与翻译的Transformer模型实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00396/article/details/148360050

Fairseq联合学习对齐与翻译的Transformer模型实践指南

fairseq facebookresearch/fairseq: fairseq 是Facebook AI研究团队开发的一个高性能序列到序列（Seq2Seq）学习框架，主要用于机器翻译、文本生成以及其他自然语言处理任务的研究与开发。项目地址: https://gitcode.com/gh_mirrors/fa/fairseq

前言

在机器翻译领域，传统的神经机器翻译模型通常将翻译和对齐视为两个独立的任务。然而，Fairseq项目提供的联合学习对齐与翻译的Transformer模型创新性地将这两个任务统一到一个框架中，通过共享参数和联合训练的方式，显著提升了翻译质量和对齐准确性。

核心概念解析

联合对齐翻译模型

该模型基于Transformer架构，主要特点包括：

在标准Transformer基础上增加了对齐预测模块
使用多任务学习框架同时优化翻译和对齐目标
对齐信息直接来自统计对齐工具（如FastAlign）生成的硬对齐
通过特殊的损失函数将对齐信号融入训练过程

技术优势

相比传统方法，这种联合学习方式具有以下优势：

对齐信息为翻译任务提供了额外的监督信号
翻译上下文帮助改善对齐质量
端到端训练简化了传统流水线系统
共享参数减少了模型复杂度

完整实现流程

1. 数据准备阶段

首先需要准备平行语料并进行预处理：

./prepare-wmt18en2de_no_norm_no_escape_no_agressive.sh

这个脚本会完成以下工作：

下载WMT'18英德数据集
进行基本的文本规范化处理
应用BPE子词分割（32k词表）
划分训练/验证/测试集

2. 对齐生成

使用FastAlign工具生成词对齐：

# 编译安装FastAlign
git clone git@github.com:clab/fast_align.git
pushd fast_align
mkdir build
cd build
cmake ..
make
popd

# 生成对齐文件
ALIGN=fast_align/build/fast_align
paste bpe.32k/train.en bpe.32k/train.de | awk -F '\t' '{print $1 " ||| " $2}' > bpe.32k/train.en-de
$ALIGN -i bpe.32k/train.en-de -d -o -v > bpe.32k/train.align

关键点说明：

输入格式要求"源语言 ||| 目标语言"
-d选项表示双向对齐
-o -v选项输出可读的对齐格式

3. 数据预处理

使用fairseq-preprocess进行二进制化处理：

fairseq-preprocess \
    --source-lang en --target-lang de \
    --trainpref bpe.32k/train \
    --validpref bpe.32k/valid \
    --testpref bpe.32k/test \
    --align-suffix align \  # 指定对齐文件后缀
    --destdir binarized/ \
    --joined-dictionary \  # 共享源语言和目标语言词表
    --workers 32

4. 模型训练

使用transformer_wmt_en_de_big_align架构进行训练：

fairseq-train \
    binarized \
    --arch transformer_wmt_en_de_big_align \
    --share-all-embeddings \
    --optimizer adam --adam-betas '(0.9, 0.98)' \
    --lr 0.0002 --lr-scheduler inverse_sqrt \
    --criterion label_smoothed_cross_entropy_with_alignment \
    --load-alignments \  # 加载对齐数据
    --fp16  # 混合精度训练

训练技巧：

使用--update-freq实现梯度累积，模拟大批量训练
大批量时可适当提高学习率（如0.0007）
对齐损失会自动与翻译损失加权结合

5. 解码与对齐生成

生成翻译结果同时输出对齐：

fairseq-generate \
    binarized --gen-subset test \
    --print-alignment \  # 输出对齐信息
    --path checkpoints/checkpoint_best.pt \
    --beam 5 --nbest 1

输出结果包含：