12、基于Transformer的机器翻译技术解析

最新推荐文章于 2025-08-16 20:00:00 发布

a1b2c3d

最新推荐文章于 2025-08-16 20:00:00 发布

阅读量24

点赞数

CC 4.0 BY-SA版权

分类专栏：解密Transformer：NLP革命文章标签： Transformer 机器翻译 BLEU评估

本文链接：https://blog.youkuaiyun.com/a1b2c3d/article/details/151127278

解密Transformer：NLP革命专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于Transformer的机器翻译技术解析

1. 数据集预处理的完成

在进行模型训练之前，原始数据的预处理是必不可少的步骤。具体操作如下：
1. 加载和保存清理后的数据集 ：
- 打开与 read.py 在同一目录下的 read_clean.py 文件。
- 定义加载清理后数据集的函数 load_clean_sentences 和保存清理后句子列表的函数 save_clean_sentences 。

from pickle import load
from pickle import dump
from collections import Counter

# load a clean dataset
def load_clean_sentences(filename):
    return load(open(filename, 'rb'))

# save a list of clean sentences to file
def save_clean_sentences(sentences, filename):
    dump(sentences, open(filename, 'wb'))
    print('Saved: %s' % filename)