fairseq transformer训练中的一些问题

最新推荐文章于 2025-06-24 10:58:32 发布

Dracen_Wu

最新推荐文章于 2025-06-24 10:58:32 发布

阅读量4.9k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：自然语言处理文章标签： fairseq transformer nlp

本文链接：https://blog.youkuaiyun.com/DragonBark/article/details/101123541

本文探讨了fairseq中Transformer模型训练过程中数据的流向、Decoder的工作原理，以及源目标输入方式。在训练结束后，了解解码预测阶段如何通过Encoder和Decoder生成单词。解码时，根据min_len和max_len控制输出长度，决定何时结束翻译。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这两天看fairseq transformer的代码，并在服务器用transformer跑实验。今天遇到一些问题，和师兄进行了一些交流，记录下来。

另一篇梳理nlp中的一些英文名词的还在写，整理好再发布。

也就是按一句一行，每一行都有src_len个单词。不过真正传入的不是单词，而是单词的token，即在词典中的位置。

在传入模型之前，会对数据进行embedding操作。embedding简单来说就是对每个token进行以dim为维度的扩展。在《attention is all you need》中，dim即d_model = 512。如果把源数据视为一个长方形，那么经过embedding后，数据就变成了长方体，它的维度为 $batch\_size * src\_len * dim$