基于Transformer的本地机器翻译应用

本文记述了一名学习者如何基于开源项目DevilExileSu/transformer进行机器翻译,通过替换数据集IWSLT2017并处理vocab,解决了max_seq_len问题,展示了项目实践过程和训练初步效果。

纪念小白完成的第一个机器学习项目,虽然绝大部分代码源自开源项目,只是做了一个数据集替换的工作

1.项目来源

源项目来自DevilExileSu/transformer: transformer,机器翻译,中文--英文 (github.com)

项目自带的数据集应该是爬虫获取的,翻译质量很低且都是政治领域话题。因此,为了完成作业,尝试更换数据集进行模型训练

2.数据集

iwslt2017,是一个用于机器翻译研究的公开数据集,特别是针对口语翻译任务。IWSLT是一个年度会议,每年都会发布针对该年度会议主题的数据集,用于促进口语翻译技术的发展和评估。

数据集下载代码如下:

from datasets import load_dataset

# 设置数据集保存路径
save_path = "/path/to/your/dataset"

dataset = load_dataset("iwslt2017", 'iwslt2017-zh-en')
dataset.save_to_disk(save_path)

3. 数据处理

为了继续使用原项目的dataloader类,对原项目中vocab部分做了一些修改:

import pickle
from tqdm import tqdm
from collections import Counter
from data.tokenize import Tokenizer
from datasets import load_from_disk

class Vocab(object):
    def __init__(self, min
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值