
transformer
hyzhyzhyz12345
这个作者很懒,什么都没留下…
展开
-
GPT-1和GPT-2的发展
OpenAI在2018年提出来的一个方法——GPT 1.0,GPT 1.0采取预训练+FineTuning两个阶段,它采取Transformer的decoder作为特征抽取器,总共堆叠12个。预训练阶段采用“单向语言模型”作为训练任务,把语言知识编码到decoder里。第二阶段,在第一阶段训练好的模型基础上,通过Finetuning来做具体的NLP任务,迁移能力强。注意在Decoder 中,使用了...原创 2020-02-05 16:18:29 · 4677 阅读 · 0 评论 -
说说transformer当中的维度变化
例如我们要进行机器翻译任务法语–英语,输入一种法语,经过 Transformer,会输出另英语。Transformer 有 6 个编码器叠加和 6 个解码器组成,在结构上都是相同的,但它们不共享权重。拿出经典的图,我将从encoder一步一步走,再到decoder一步一步走到output probabilities。 1、输入的是批量(batch_size)含有许多句子,最长为max_seq_l...原创 2020-01-31 00:16:01 · 8731 阅读 · 3 评论