PyTorch实战:深入解析Seq2seq模型

  1. Sequence-to-Sequence 简介

大多数常见的
sequence-to-sequence (seq2seq) model
为 encoder-decoder model,主要由两个部分组成,分别是
Encoder

Decoder
,而这两个部分大多数是由
recurrent neural network (RNN)
实现。

Encoder
是将一连串的输入,如文字、影片、声音讯号等,编码为单个向量,这个向量可以想像为整个输入的抽象表示,包含了整个输入的资讯。

Decoder
是將 Encoder 输出的向量进行逐步解码,一次输出一个结果,直到将最终的目标全部输出为止,每次输出会影响下一个输出,一般会在开始输入
< BOS >
来表示开始解码,会在结尾出输出
< EOS >
来表示解码结束。

  1. 任务介绍

  • 英文翻译为中文
    • 输入: 一句英文 (e.g. tom is a student .)
    • 输出: 中文翻译 (e.g. 汤姆 是 个 学生 。)
  1. 实现过程

首先要做的是下载资料,主要是用来下载本次任务需要的数据集

!gdown --id '1r4px0i-NcrnXy1-tkBsIwvYwbWnxAhcg' --output data.tar.gz
!tar -zxvf data.tar.gz
!mkdir ckpt
!ls

之后导入需要用到的包(如果
nltk
包没有下载的话,可使用第一段代码进行下载)

!pip3 install --user nltk

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torch.utils.data as data
import torch.utils.data.sampler as sampler
import torchvision
from torchvision import datasets, transforms

import numpy as np
import sys
import os
import random
import json

device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 判斷是用 CPU 還是 GPU 執行運算


需要注意的是,不同的句子往往有着不同的长度,这无疑给训练带来了不小的麻烦(因为 RNN 的输入维度要进行相应的改变)。为了解决这个麻烦,我们使用
<pad>
长度较短的句子进行填充。因此这里定义一个长度转换的类

import numpy as np

class LabelTransform(object):
  def __init__(self, size, pad):
    self.size = size
    self.pad = pad

  def __call__(self, label):
    label = np.pad(label, (0, (self.size - label.shape[0])), mode='constant', constant_values=self.pad)
    return label


下一步就是数据的准备了,我们定义一个Dataset。

  • Data (出自manythings 的 cmn-eng):

    • 训练资料:18000句
    • 验证资料: 500句
    • 测试资料: 2636句
  • 资料预处理:

    • 英文:
      • 用 subword-nmt 套件将word转为subword
      • 建立字典:取出标签中出现频率高于预定阈值的subword
    • 中文:
      • 用 jieba 将中文句子进行断句
      • 建立字典:取出标签中出现频率高于预定阈值的词
    • 特殊字元: < PAD >, < BOS >, < EOS >, < UNK >
      • < PAD > :无意义,将句子拓展到相同长度
      • < BOS > :Begin of sentence, 开始字元
      • < EOS > :End of sentence, 结尾字元
      • < UNK > :单字沒有出现在字典里的字
    • 将字典里出现的 subword (词) 用一个整数表示,分为英文和中文的字典,方便之后转化为 one-hot vector
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值