d2l-pytorch项目解析：机器翻译与数据集预处理实战指南

潘俭渝Erik

于 2025-06-09 09:21:51 发布

阅读量320

点赞数 4

本文链接：https://blog.youkuaiyun.com/gitblog_00091/article/details/148527354

版权

d2l-pytorch项目解析：机器翻译与数据集预处理实战指南

d2l-pytorch dsgiitr/d2l-pytorch: d2l-pytorch 是Deep Learning (DL) from Scratch with PyTorch系列教程的配套代码库，通过从零开始构建常见的深度学习模型，帮助用户深入理解PyTorch框架以及深度学习算法的工作原理。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-pytorch

机器翻译基础概念

机器翻译（Machine Translation, MT）是指将一段文本从一种语言自动翻译成另一种语言的技术。当使用神经网络来解决这个问题时，我们称之为神经机器翻译（Neural Machine Translation, NMT）。与传统的语言模型不同，机器翻译的输出是一个单词序列而非单个单词，而且输出序列的长度可能与源序列长度不同。

神经机器翻译的核心挑战在于：

处理变长输入输出序列
捕捉语言间的复杂映射关系
保持翻译的语义一致性

数据集获取与初步处理

在d2l-pytorch项目中，我们首先下载一个包含英语句子及其对应法语翻译的数据集。这个数据集的特点是每行包含一个英语句子和它的法语翻译，两者之间用制表符(TAB)分隔。

原始数据示例：

Go.    Va !
Hi.    Salut !
Run!    Cours !

数据预处理步骤

字符规范化处理：
- 替换特殊空格字符（如不换行空格）
- 在标点符号前添加空格
- 统一转换为小写

预处理后的数据示例：

go .    va !
hi .    salut !
run !    cours !

这种规范化处理对于后续的tokenization和模型训练至关重要，它确保了数据格式的一致性。

数据分词与可视化

分词处理

我们将每个单词或标点符号视为一个token，这样每个句子就是一个token列表。项目中将文本数据转换为：

源语言（英语）句子列表：每个句子是token的列表
目标语言（法语）句子列表：同样结构的token列表

示例分词结果：

([['go', '.'], ['hi', '.'], ['run', '!']],
 [['va', '!'], ['salut', '!'], ['cours', '!']])

句子长度分析

通过可视化分析，我们发现：

平均每个句子包含约5个token
大多数句子的token数量少于10个

这种分析帮助我们理解数据特征，为后续的模型设计（如RNN长度设置）提供依据。

关键实现细节

1. 预处理函数解析

def preprocess_raw(text):
    # 替换特殊空格字符
    text = text.replace('\u202f', ' ').replace('\xa0', ' ')
    out = ''
    for i, char in enumerate(text.lower()):
        # 在标点符号前添加空格
        if char in (',', '!', '.') and i > 0 and text[i-1] != ' ':
            out += ' '
        out += char
    return out

这个函数完成了三个关键操作：

统一空格处理
标点符号规范化
大小写统一

2. 数据集构建

num_examples = 50000
source, target = [], []
for i, line in enumerate(text.split('\n')):
    if i > num_examples:
        break
    parts = line.split('\t')
    if len(parts) == 2:
        source.append(parts[0].split(' '))
        target.append(parts[1].split(' '))

这段代码实现了：

控制数据集大小（50,000个样本）
分离源语言和目标语言
分词处理

实际应用建议

数据规模选择：示例中使用50,000个样本，在实际应用中可根据计算资源调整：
- 小规模实验：10,000-50,000
- 中等规模：100,000-500,000
- 生产环境：百万级以上
预处理扩展：
- 考虑添加句子开始和结束标记
- 处理数字和特殊符号
- 实现更复杂的tokenization（如BPE）
数据增强：
- 反向翻译
- 同义词替换
- 随机删除/交换