- Sequence-to-Sequence 简介
大多数常见的
sequence-to-sequence (seq2seq) model
为 encoder-decoder model,主要由两个部分组成,分别是
Encoder
和
Decoder
,而这两个部分大多数是由
recurrent neural network (RNN)
实现。
Encoder
是将一连串的输入,如文字、影片、声音讯号等,编码为单个向量,这个向量可以想像为整个输入的抽象表示,包含了整个输入的资讯。
Decoder
是將 Encoder 输出的向量进行逐步解码,一次输出一个结果,直到将最终的目标全部输出为止,每次输出会影响下一个输出,一般会在开始输入
< BOS >
来表示开始解码,会在结尾出输出
< EOS >
来表示解码结束。

- 任务介绍
- 英文翻译为中文
- 输入: 一句英文 (e.g. tom is a student .)
- 输出: 中文翻译 (e.g. 汤姆 是 个 学生 。)
- 实现过程
首先要做的是下载资料,主要是用来下载本次任务需要的数据集
!gdown --id '1r4px0i-NcrnXy1-tkBsIwvYwbWnxAhcg' --output data.tar.gz
!tar -zxvf data.tar.gz
!mkdir ckpt
!ls
之后导入需要用到的包(如果
nltk
包没有下载的话,可使用第一段代码进行下载)
!pip3 install --user nltk
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torch.utils.data as data
import torch.utils.data.sampler as sampler
import torchvision
from torchvision import datasets, transforms
import numpy as np
import sys
import os
import random
import json
device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 判斷是用 CPU 還是 GPU 執行運算
需要注意的是,不同的句子往往有着不同的长度,这无疑给训练带来了不小的麻烦(因为 RNN 的输入维度要进行相应的改变)。为了解决这个麻烦,我们使用
<pad>
长度较短的句子进行填充。因此这里定义一个长度转换的类
import numpy as np
class LabelTransform(object):
def __init__(self, size, pad):
self.size = size
self.pad = pad
def __call__(self, label):
label = np.pad(label, (0, (self.size - label.shape[0])), mode='constant', constant_values=self.pad)
return label
下一步就是数据的准备了,我们定义一个Dataset。
-
Data (出自manythings 的 cmn-eng):
- 训练资料:18000句
- 验证资料: 500句
- 测试资料: 2636句
-
资料预处理:
- 英文:
- 用 subword-nmt 套件将word转为subword
- 建立字典:取出标签中出现频率高于预定阈值的subword
- 中文:
- 用 jieba 将中文句子进行断句
- 建立字典:取出标签中出现频率高于预定阈值的词
- 特殊字元: < PAD >, < BOS >, < EOS >, < UNK >
- < PAD > :无意义,将句子拓展到相同长度
- < BOS > :Begin of sentence, 开始字元
- < EOS > :End of sentence, 结尾字元
- < UNK > :单字沒有出现在字典里的字
- 将字典里出现的 subword (词) 用一个整数表示,分为英文和中文的字典,方便之后转化为 one-hot vector
- 英文:

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



