探索Transformer:从基础到应用
1. 引言
2017 年,Google 研究人员提出了一种用于序列建模的新型神经网络架构——Transformer。它在机器翻译任务中超越了循环神经网络(RNN),在翻译质量和训练成本方面都表现出色。与此同时,一种有效的迁移学习方法 ULMFiT 表明,在大规模多样化语料库上训练长短期记忆(LSTM)网络可以用少量标记数据产生最先进的文本分类器。这些进展催生了如今最著名的两个 Transformer 模型:生成式预训练 Transformer(GPT)和双向编码器表征 Transformer(BERT)。接下来,我们将深入了解 Transformer 的核心概念。
2. 编码器 - 解码器框架
2.1 RNN 的工作原理
在 Transformer 出现之前,像 LSTM 这样的循环架构是自然语言处理(NLP)中的先进技术。这些架构在网络连接中包含一个反馈循环,允许信息从一个步骤传播到另一个步骤,使其非常适合对文本等序列数据进行建模。
RNN 接收输入(可以是一个单词或字符),将其输入网络,并输出一个称为隐藏状态的向量。同时,模型通过反馈循环将一些信息反馈给自己,以便在下一步使用。将这个循环“展开”后,可以更清楚地看到 RNN 在序列中的每个步骤将其状态信息传递给下一个操作,从而能够跟踪先前步骤的信息并用于输出预测。
2.2 编码器 - 解码器架构在机器翻译中的应用
RNN 在机器翻译系统的发展中发挥了重要作用。机器翻译的目标是将一种语言中的单词序列映射到另一种语言,通常使用编码器 - 解码器或序列到序列架构来处理这种任务,该架构适用于输入和输出都
超级会员免费看
订阅专栏 解锁全文
1758

被折叠的 条评论
为什么被折叠?



