TensorFlow深度学习实战——Transformer变体模型
0. 前言
在 Transformer 模型提出之后,研究人员提出了大量基于 Transformer
的变体模型。本节中,介绍了流行的 Transformer
变体模型。
1. BERT
BERT
(Bidirectional Encoder Representations from Transformers
) 是 Google AI
研究团队在 2018
年开发的语言表示模型,该模型的重要思想包括:
BERT
通过双向自注意力 (bidirectional self-attention
) 考虑每个词的上下文,既包括左侧也包括右侧。- 训练通过随机掩码输入词元 (
token
) 进行,并避免循环,以便单词不能间接看到自身。在自然语言处理 (Natural Language Processing
,NLP
) 中,称为填空 (fill in the blank
)。换句话说,预训练任务掩码少量未标记的输入,然后训练网络恢复这些原始输入 - 模型使用分类任务进行预训练,预测句子序列