Pre-trained model之底层原理_user-trained model pre-trained model ibm-优快云博客

本文链接：https://blog.youkuaiyun.com/ZackNing/article/details/133638859

A. 实现transformer

1. 设计思路和计算方法

最初的设想是作为文本翻译model使用。它的设计思路如下：

transformer对我们来说是一个黑盒，输入一句话，输出一句话，形成了原文和译文的关系。即广义上的翻译task。将黑盒打开会看到它内部有一个编码器和一个解码器，编码器负责读取原文从原文中抽取特征后交给解码器生成泽文。

从下图可以看出，它们的内部都是多层结构，实际情况远远多于图中的层数。编码器在计算时，多层编码器是前后串行结构，最终一层抽取的文本特征作为最终的文本特征．解码器同样是前后串行的结构，每次的计算输入除了前一层的计算输出，还包括了编码器抽取的文本特征。如果要把上面的计算过程类比成人类思考的过程，则可以设想这样一个场景，一个人看到了一句中文，他的任务是把这句中文翻译成英文，他大体上需要分两步来完成这项任务，首先需要把中文读到大脑中，读的过程往往不是一次完成的，人类在做这件事情时往往依靠潜意识，所以很难意识到读的过程需要很多次，同样一句话，第1次读和第2次读往往有不同的感觉，这就相当于Transformer中的多层编码器。在读取文本后，人类需要组织语言把这句话翻译成英文，翻译的过程同样需要多次“改稿”，最终人类在大脑中完成翻译工作，组织了一句满意的译文，相当于Transformer中的多层解码器。