PyTorch实战：深入解析Seq2seq模型_pytorch seq2seq-优快云博客

Sequence-to-Sequence 简介

大多数常见的
sequence-to-sequence (seq2seq) model
为 encoder-decoder model，主要由两个部分组成，分别是
Encoder
和
Decoder
，而这两个部分大多数是由
recurrent neural network (RNN)
实现。

Encoder
是将一连串的输入，如文字、影片、声音讯号等，编码为单个向量，这个向量可以想像为整个输入的抽象表示，包含了整个输入的资讯。

Decoder
是將 Encoder 输出的向量进行逐步解码，一次输出一个结果，直到将最终的目标全部输出为止，每次输出会影响下一个输出，一般会在开始输入
< BOS >
来表示开始解码，会在结尾出输出
< EOS >
来表示解码结束。

任务介绍

英文翻译为中文
- 输入：一句英文（e.g. tom is a student .）
- 输出：中文翻译（e.g. 汤姆是个学生。）

实现过程

首先要做的是下载资料，主要是用来下载本次任务需要的数据集

!gdown --id '1r4px0i-NcrnXy1-tkBsIwvYwbWnxAhcg' --output data.tar.gz
!tar -zxvf data.tar.gz
!mkdir ckpt
!ls

之后导入需要用到的包（如果
nltk
包没有下载的话，可使用第一段代码进行下载）

!pip3 install --user nltk

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torch.utils.data as data
import torch.utils.data.sampler as sampler
import torchvision
from torchvision import datasets, transforms

import numpy as np
import sys
import os
import random
import json

device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 判斷是用 CPU 還是 GPU 執行運算

需要注意的是，不同的句子往往有着不同的长度，这无疑给训练带来了不小的麻烦（因为 RNN 的输入维度要进行相应的改变）。为了解决这个麻烦，我们使用
<pad>
长度较短的句子进行填充。因此这里定义一个长度转换的类

import numpy as np

class LabelTransform(object):
  def __init__(self, size, pad):
    self.size = size
    self.pad = pad

  def __call__(self, label):
    label = np.pad(label, (0, (self.size - label.shape[0])), mode='constant', constant_values=self.pad)
    return label

下一步就是数据的准备了，我们定义一个Dataset。

Data (出自manythings 的 cmn-eng):
- 训练资料：18000句
- 验证资料： 500句
- 测试资料： 2636句
资料预处理:
- 英文：
  - 用 subword-nmt 套件将word转为subword
  - 建立字典：取出标签中出现频率高于预定阈值的subword
- 中文：
  - 用 jieba 将中文句子进行断句
  - 建立字典：取出标签中出现频率高于预定阈值的词
- 特殊字元： < PAD >, < BOS >, < EOS >, < UNK >
  - < PAD > ：无意义，将句子拓展到相同长度
  - < BOS > ：Begin of sentence, 开始字元
  - < EOS > ：End of sentence, 结尾字元
  - < UNK > ：单字沒有出现在字典里的字
- 将字典里出现的 subword (词) 用一个整数表示，分为英文和中文的字典，方便之后转化为 one-hot vector