基于Transformer的机器翻译技术解析
1. 数据集预处理的完成
在进行模型训练之前,原始数据的预处理是必不可少的步骤。具体操作如下:
1. 加载和保存清理后的数据集 :
- 打开与 read.py 在同一目录下的 read_clean.py 文件。
- 定义加载清理后数据集的函数 load_clean_sentences 和保存清理后句子列表的函数 save_clean_sentences 。
from pickle import load
from pickle import dump
from collections import Counter
# load a clean dataset
def load_clean_sentences(filename):
return load(open(filename, 'rb'))
# save a list of clean sentences to file
def save_clean_sentences(sentences, filename):
dump(sentences, open(filename, 'wb'))
print('Saved: %s' % filename)
- 创建词汇计数器 :
- 定义函数
超级会员免费看
订阅专栏 解锁全文
994

被折叠的 条评论
为什么被折叠?



