深度学习迁移模型BERT详解

BERT,由GoogleAI于2018年提出,利用双向Transformer进行预训练,在多种自然语言处理任务上取得显著提升。该模型采用多任务学习策略,包括masked语言模型和下一个句子预测,并可针对具体任务进行微调。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2018年google AI组发表的一篇文章BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding在多个自然语言处理问题上取得了很大的提升。

      BERT是一个迁移学习模型,在双向深度网络Transformer (https://arxiv.org/pdf/1706.03762.pdf )的基础上做多任务学习(MLM和下个句子预测),得到预训练模型,然后在模型的最后添加一层迁移到具体的任务上去。

1、总体架构

BERT总体结构
BERT的结构类似于 OpenAI GPT,主要的区别在于BERT用了Transformer,Transformer的双向self-attention可以同时考虑左右两边的上下文信息,而GPT只用了单词(或字符)左边的上下文信息。
      Google团队设计了两个BERT模型,分别是 B E R T B A S E BERT_{BASE} BERTBASE B E R T L A R G E BERT_{LARGE} BERTLARGE。L:Transformer层数, H:隐单元个数, A:self-attention heads 数量

  • B E R T B A S E BERT_{BASE} BERTBASE: L=12, H=768, A=12, 模型大小110M
  • B E R T L A R G E BERT_{LARGE} B</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值