15.transformer全解

原创

已于 2023-04-17 00:02:06 修改 · 2.2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #算法 #深度学习

于 2023-04-17 00:00:04 首次发布

Transformer是Google在2017年提出的网络结构，它使用自注意力机制替代RNN，实现并行计算，提高效率。文章详细介绍了Transformer的网络结构，包括Input/OutputEmbedding、自注意力层、点状全连接层和位置编码，以及在编码器和解码器中的应用。

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

文章目录

1.基础介绍

论文：Attention Is All You Need

这是Google2017年06月份发表的文章，在这篇文章中作者提出了后来对CV和NLP都产生了影响很大的Transformer网络结构，成为继MLP和RNN后又一倍受关注的基础模型。用于序列化数据的学习以输出序列化的预测结果，如应用在NLP领域。Transformer最早的提出就是应用在机器翻译领域，在WMT2014 英语翻译成德语的任务上，BLEU指标达到了28.4,比之前的SOTA提升了2个点。Transformer中使用多头注意力层替换了之前序列转录模型中使用循环神经网络单元。

图片来自于1

在RNN中，如上图，要计算 $h_t$ 必须先计算 $h_{t-1}$ 及其之前的所有输出，这导致模型的计算无法在时间上并行，导致运算效率比较低。此外，因时序信息是一步步向后传递的，因此对于序列早期的信息在后面的计算中有可能会丢掉，而存储 $h_t$ 当序列长度过长时又会占用过多的内存。而Transformer结构使用自注意力机制，使得模型能够进行并行化计算，提升训练速度。

2.网络结构

对于序列数据的学习，经典的结构就是编码-解码结构，编码器将输入序列 $x_1,x_2,...,x_n)$ 映射成 $z_1,z_2,...,z_n)$ ，解码器以 $z$ 为输入得到 $y_1,y_2,...,y_m)$ 作为输出，这里的输出过程是先输出 $y_1$ ，再根据 $y_1$ 输出 $y_2$ ,再根据 $y_1,y_2$ 再输出 $y_3$