探索Transformer模型:从基础到应用与生态系统
1. GPT与BERT:Transformer时代的先驱
GPT仅使用Transformer架构的解码器部分,采用与ULMFiT相同的语言建模方法,并在包含7000本未出版书籍(涵盖冒险、奇幻、浪漫等多种类型)的BookCorpus上进行预训练。
BERT则使用Transformer架构的编码器部分,采用一种特殊的语言建模方式——掩码语言建模。其目标是预测文本中随机掩码的单词,例如给定句子 “I looked at my [MASK] and saw that [MASK] was late.”,模型需要预测由 [MASK] 表示的掩码单词的最可能候选词。BERT在BookCorpus和英文维基百科上进行预训练。
GPT和BERT在各种NLP基准测试中树立了新的标杆,开启了Transformer时代。然而,不同研究实验室在不兼容的框架(如PyTorch或TensorFlow)中发布模型,这使得NLP从业者将这些模型移植到自己的应用程序中并非易事。随着Transformers库的发布,为超过50种架构构建了统一的API,推动了Transformer研究的爆发,并迅速惠及NLP从业者,使他们能够轻松地将这些模型集成到许多实际应用中。
2. Hugging Face Transformers:弥合差距
将新的机器学习架构应用于新任务通常是一个复杂的过程,一般包括以下步骤:
1. 通常基于PyTorch或TensorFlow,用代码实现模型架构。
2. (如果可用)从服务器加载预训练权重。
3. 对输入进行预处理,将其输入模型,并应用一些特定任务的后处理。 <
超级会员免费看
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



