深入理解D2L项目中的机器翻译与数据集处理-优快云博客

深入理解D2L项目中的机器翻译与数据集处理

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

引言

机器翻译是自然语言处理(NLP)领域最具挑战性也最具实用价值的任务之一。本文将基于D2L项目中的相关内容，深入探讨机器翻译的基本概念、数据处理流程以及关键技术点。我们将从机器翻译的定义出发，逐步解析数据集获取、预处理、分词以及批处理等关键环节。

机器翻译概述

机器翻译(Machine Translation)是指利用计算机自动将一种自然语言(源语言)的文本转换为另一种自然语言(目标语言)文本的过程。与传统语言模型不同，机器翻译面临几个独特挑战：

序列长度不一致：源语言和目标语言的句子长度通常不同
词序差异：不同语言的语法结构导致对应词语出现顺序不同
语义对等：需要在保持语义不变的前提下进行语言转换

现代机器翻译系统大多采用序列到序列(seq2seq)的框架，这也是D2L项目中重点介绍的内容。

数据集准备与预处理

数据获取

D2L项目中使用的是来自Tatoeba项目的英法双语平行语料。每条数据包含一个英语句子和对应的法语翻译，以制表符分隔。数据预处理包括以下几个关键步骤：

特殊字符处理：替换不间断空格等特殊字符
大小写统一：将所有文本转换为小写
标点符号处理：在单词和标点符号之间插入空格

def _preprocess(self, text):
    # 替换特殊空格
    text = text.replace('\u202f', ' ').replace('\xa0', ' ')
    # 在标点前插入空格
    no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
    out = [' ' + char if i > 0 and no_space(char, text[i-1]) else char
           for i, char in enumerate(text.lower())]
    return ''.join(out)

分词处理

与字符级分词不同，机器翻译通常采用词级分词(word-level tokenization)：

将句子分割为单词和标点符号的序列
在每个序列末尾添加<eos>(end of sequence)标记表示结束
统计序列长度分布，为后续批处理做准备

def _tokenize(self, text, max_examples=None):
    src, tgt = [], []
    for i, line in enumerate(text.split('\n')):
        if max_examples and i > max_examples: break
        parts = line.split('\t')
        if len(parts) == 2:
            src.append([t for t in f'{parts[0]} <eos>'.split(' ') if t])
            tgt.append([t for t in f'{parts[1]} <eos>'.split(' ') if t])
    return src, tgt

批处理与序列填充

由于源语言和目标语言序列长度不同，我们需要进行特殊处理：

截断与填充：通过添加<pad>标记使所有序列长度相同
有效长度记录：记录实际序列长度(不包括填充标记)
词汇表构建：为源语言和目标语言分别构建词汇表，将低频词替换为<unk>

def _build_array(sentences, vocab, is_tgt=False):
    pad_or_trim = lambda seq, t: (
        seq[:t] if len(seq) > t else seq + ['<pad>'] * (t - len(seq)))
    sentences = [pad_or_trim(s, self.num_steps) for s in sentences]
    if is_tgt:
        sentences = [['<bos>'] + s for s in sentences]  # 添加起始标记
    if vocab is None:
        vocab = d2l.Vocab(sentences, min_freq=2)  # 低频词处理
    array = d2l.tensor([vocab[s] for s in sentences])
    valid_len = d2l.reduce_sum(
        d2l.astype(array != vocab['<pad>'], d2l.int32), 1)
    return array, vocab, valid_len

数据加载器实现

最后，我们实现数据加载器，为模型训练提供批数据：

def get_dataloader(self, train):
    idx = slice(0, self.num_train) if train else slice(self.num_train, None)
    return self.get_tensorloader(self.arrays, train, idx)

每个批次包含四个部分：