【论文阅读笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2025-09-12 23:40:37 发布

原创

最新推荐文章于 2025-09-12 23:40:37 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #bert #transformer

BERT模型通过预训练和微调在NLP领域展现出强大性能，其核心在于使用多层双向Transformer编码器。与ELMo（基于RNN）和GPT（基于Transformer解码器）不同，BERT利用 masked language model 和 next sentence prediction 任务，捕捉到语言的双向信息。在预训练阶段，BERT以15%的概率随机替换词元并预测被遮掩的词，而在微调阶段则针对特定任务进行调整。该模型在11项NLP任务上表现出色，并开源了代码，推动了无监督预训练在NLP领域的广泛应用。

BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络，应用在很多NLP应用上面。

BERT: Pre-training of `Deep Bidirectional Transformers` for Language Understanding

深的双向Transformer

摘要（Abstract）：与别的文章的区别是什么？效果有多好？

与ELMo的区别：ELMo基于RNN，双向，在运用到下游的任务时需要做出一些调整。BERT基于Transformer，只需要改最上层。
与GPT的区别：GPT基于Transformer解码器，单向，用左边的上下文信息预测。BERT基于Transformer编码器双向。

BERT的好处：简单且效果好，在11个NLP任务上都比较好。

引言（Introduction）：语言模型的简单介绍；摘要第一段的扩充；

在使用预训练模型做特征表示的时候，通常有两种策略：

基于特征

ELMo，对于每一个下游任务，构造一个与之相关的神经网络，RNN架构，将预训练好的（比如一个词嵌入矩阵）作为额外特征一起作为输入，输入到模型里面，达到训练模型比较容易的目的。

简单来说：这是大多数NLP最常用的使用预训练模型的方法，把学到的特征和输入一起放进去。
基于微调

GPT，引入了最小的特定于任务的参数，预训练好的参数进行微调

这两种方法在预训练及之后都使用相同的目标函数（GPT也不全是吧），且都使用单向的语言模型进行学习。（预测未来）

Bert主要想法：预测未来---->完形填空，用masked language model，带掩码的语言模型

除此之外，Bert还关注了句子层面的信息：给两个句子，判断这两个句子是不是相邻的。（NSP）

贡献点：双向信息的重要性（句子从左看到右，从右看到左）

在BERT上做微调效果很好

代码开源

结论（Conlusion）：

无监督的预训练很重要（在计算机视觉领域，在没有标签的数据集上做训练比在有标签的数据集上做训练效果会更好）；

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。