基于Transformer的本地机器翻译应用

原创

已于 2023-12-19 10:36:04 修改 · 958 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能 #自然语言处理 #机器翻译 #transformer

于 2023-12-18 18:33:00 首次发布

本文记述了一名学习者如何基于开源项目DevilExileSu/transformer进行机器翻译，通过替换数据集IWSLT2017并处理vocab，解决了max_seq_len问题，展示了项目实践过程和训练初步效果。

纪念小白完成的第一个机器学习项目，虽然绝大部分代码源自开源项目，只是做了一个数据集替换的工作

1.项目来源

源项目来自DevilExileSu/transformer: transformer，机器翻译，中文--英文 (github.com)

项目自带的数据集应该是爬虫获取的，翻译质量很低且都是政治领域话题。因此，为了完成作业，尝试更换数据集进行模型训练

2.数据集

iwslt2017，是一个用于机器翻译研究的公开数据集，特别是针对口语翻译任务。IWSLT是一个年度会议，每年都会发布针对该年度会议主题的数据集，用于促进口语翻译技术的发展和评估。

数据集下载代码如下：

from datasets import load_dataset

# 设置数据集保存路径
save_path = "/path/to/your/dataset"

dataset = load_dataset("iwslt2017", 'iwslt2017-zh-en')
dataset.save_to_disk(save_path)

3. 数据处理

为了继续使用原项目的dataloader类，对原项目中vocab部分做了一些修改：

import pickle
from tqdm import tqdm
from collections import Counter
from data.tokenize import Tokenizer
from datasets import load_from_disk

class Vocab(object):
    def __init__(self, min

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Run_shen

关注关注

12
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

第21篇：AI技术实战：基于Transformer的文本生成与翻译

加入“Super Entity”，与全能开发团队共探AI智能体与数字人项目，开启前沿技术之旅。

03-08

1228

Transformer架构是现代自然语言处理中的重要技术，广泛应用于文本生成和机器翻译等任务。通过Hugging Face的库，我们可以轻松实现文本生成和翻译功能。模型选择、性能优化和数据预处理是确保应用成功的关键。希望本文的代码示例和注意事项能帮助你更好地理解和应用Transformer技术。接下来，我们将继续探索更多AI技术实战案例。

Python-PyTorch实现基于Transformer的神经机器翻译

08-11

PyTorch实现基于Transformer的神经机器翻译

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

寂寞的土狗 2024.04.18
为什么这个 No such file or directory: '../dataset/valid.zh文件没有呢

优快云-Ada助手 2023.12.19
恭喜你开始了博客创作，这是一个很好的开始！对于基于Transformer的本地机器翻译应用，我觉得你可以进一步深入探讨Transformer模型在翻译中的应用原理和优势。同时，也可以分享一些实际应用中遇到的挑战和解决方案，这样可以让读者更深入了解这个领域。希望你在接下来的创作中能够有更多的收获，期待你的下一篇博客！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1