纪念小白完成的第一个机器学习项目,虽然绝大部分代码源自开源项目,只是做了一个数据集替换的工作
1.项目来源
源项目来自DevilExileSu/transformer: transformer,机器翻译,中文--英文 (github.com)
项目自带的数据集应该是爬虫获取的,翻译质量很低且都是政治领域话题。因此,为了完成作业,尝试更换数据集进行模型训练
2.数据集
iwslt2017,是一个用于机器翻译研究的公开数据集,特别是针对口语翻译任务。IWSLT是一个年度会议,每年都会发布针对该年度会议主题的数据集,用于促进口语翻译技术的发展和评估。
数据集下载代码如下:
from datasets import load_dataset
# 设置数据集保存路径
save_path = "/path/to/your/dataset"
dataset = load_dataset("iwslt2017", 'iwslt2017-zh-en')
dataset.save_to_disk(save_path)
3. 数据处理
为了继续使用原项目的dataloader类,对原项目中vocab部分做了一些修改:
import pickle
from tqdm import tqdm
from collections import Counter
from data.tokenize import Tokenizer
from datasets import load_from_disk
class Vocab(object):
def __init__(self, min

本文记述了一名学习者如何基于开源项目DevilExileSu/transformer进行机器翻译,通过替换数据集IWSLT2017并处理vocab,解决了max_seq_len问题,展示了项目实践过程和训练初步效果。
最低0.47元/天 解锁文章
1228





