BERT介绍

BERT是谷歌提出的一种新型语言表征模型,利用Transformer的双向编码器进行预训练,刷新11项NLP任务记录。与ELMo、OpenAI GPT不同,BERT通过双向依赖获取更丰富的上下文信息,并在多个任务上实现最先进的性能。预训练方法包括屏蔽语言模型和下一句预测任务,简化特定任务架构需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介
BERT模型来自谷歌团队的paper——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,它在11个NLP任务中刷新了成绩,效果非常好,非常惊人。但是,这项工作不是很好复现,如果没有足够的资源就不要想了 。之前,利用预训练的语言表征来完成下游NLP任务的研究,可以概括为两类:feature-based和fine-tuning。feature-based类别比如ELMo,fine-tuning类别比如OpenAI GPT、ULMFiT,ELMo是把表征作为feature提供给下游任务,OpenAI GPT、ULMFiT是fine tune(微调)预训练的参数。这些方法没有很好的利用上下文(context)信息,然而这些context信息对于SQuAD类似的任务非常重要。

上图表示BERT和OpenAI GPT、ELMo模型的区别。BERT使用双向Transformer。OpenAI GPT使用从左到右的Transformer。ELMo使用经过独立训练的从左到右和从右到左LSTM的串联来生成下游任务的特征。三个模型中,只有BERT表示在所有层中共同依赖于左右上下文。除了体系结构差异之外,BERT和OpenAI GPT是fine-tuning方法,而ELMo是基于feature的方法。

原文摘要
本文介绍了一种新的语言表征模型 BERT(Bidirectional Encoder Representations from Transformers),它用Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值