Transformer实现中英翻译项目

项目地址:https://github.com/dtTbt/Transformer-en-to-cn
B站视频:BV11p4y1J7YM

项目概述

这个项目涉及两个主要部分:data.pytransformer.py。其中data.py 包含数据处理模块。 transformer.py包含transformer模型,训练和预测模块。

文件结构

项目的文件结构如下:

  • data.py: 包含数据集下载和数据集读取的模块。
  • transformer.py: 包含Transformer模型的定义,以及训练和预测的模块。
  • data/: 存放数据集的文件夹。
  • README.md: 项目说明文档,你正在阅读的内容。

数据集

项目已经包含了所需的数据集,无需手动下载。数据集文件存放在data/文件夹中。

cn.txt.vocab.tsven.txt.vocab.tsv中每个词语后面的数字表示在训练文本中的出现次数。其中前几个特殊符号的含义如下:

  • <PAD>: 填充符号。
  • <UNK>: 未知符号。
  • <S>: 句子开始。
  • </S>: 句子结束。

cn.txten.txt中每行为一句话,一句话中任何两两相邻的词语和标点符号之间都使用空格分隔,以便于分词。

训练

要训练模型,请执行以下命令:

python transformer.py --cfg train

注意训练结束只会保存最终权重,而不是最优权重。

预测

要进行预测,请执行以下命令:

python transformer.py --cfg predict

此处提供一个可用的权重:百度网盘

注意训练与预测的具体参数设置都位于transformer.py中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值